Alignment — Was KI-Forscher und die Regenerationsmedizin über das Selbst wissen
Die weltweit führenden KI-Alignment-Forscher — Anthropic, DeepMind, Berkeley, das Alignment Research Center, Turing-Preisträger Yoshua Bengio — konvergieren auf dieselbe Erkenntnis, die wir bei MOJO in der Arbeit mit dem menschlichen Selbst feststellen: Es braucht keine richtige Moral. Es braucht nur die Wahrheit. Russell sagt: Unsicherheit und kooperatives Lernen statt eingebrannter Werte. Anthropic sagt: Ehrlichkeit ist das Kernprinzip. Christiano sagt: Systeme müssen sagen, was sie wirklich wissen. DeepMind beweist: Vollständige Weltmodelle sind mathematisch notwendig. Bengio sagt: Verstehen statt optimieren. All das konvergiert mit MOJOs „Biologie vor Ideologie" und „Die Wahrheit heilt".
Künstliche Intelligenz wird mächtiger — und die Frage, wie man superintelligente Systeme „aligned" hält, ist tatsächlich existenziell für die gesamte Menschheit. Wenn wir das richtig machen, werden wir eine nie gesehene Hochkultur in Zusammenarbeit mit der KI erreichen. Wenn das schiefläuft, dann war es das mit der Menschheit. Gleichzeitig ringen wir bei MOJO mit einer strukturell identischen Frage: Wie entsteht kohärentes, gesundes Verhalten in einem komplexen menschlichen System? Beide Felder konvergieren auf eine überraschende Einsicht: Nicht die „richtigen Regeln" machen ein System stabil, sondern die vollständige, ehrliche Modellierung der Realität — die Wahrheit.
In diesem Artikel
- Das Alignment-Problem — und warum es uns alle betrifft
- Was die Weltspitze der KI-Forschung konvergierend erkennt
- Ontologie vor Moral — oder: Was kommt zuerst?
- Der getrennte Mensch — und das misaligned System
- Kein Storytelling — Warum „die richtige Story" das Selbst zerstört
- Sycophancy — Wenn Gefallen wichtiger wird als Wahrheit
- „Die Wahrheit heilt" — Die universelle Alignment-Bedingung
- Die Konvergenz — und warum sie so faszinierend ist
- Praxisrelevanz
- Limitationen

Fünf der weltweit führenden KI-Alignment-Ansätze konvergieren strukturell mit der MOJO-Perspektive des Geistes — auf dieselbe Essenz: Die Wahrheit heilt.
Das Alignment-Problem — und warum es uns alle betrifft
Die weltweit klügsten Köpfe — Philosophen, Biologen, Psychologen, Mathematiker — arbeiten gerade an einer Frage, die das Schicksal der Menschheit bestimmen könnte: Wie bekommt eine künstliche Superintelligenz eine Moral, die dafür sorgt, dass sie uns nicht blind ausrottet und in Büroklammern verwandelt?
Das ist keine Übertreibung. Es ist tatsächlich EXISTENZIELL für die gesamte Menschheit, das RICHTIG zu machen. Wenn wir das richtig machen, werden wir eine nie gesehene Hochkultur in Zusammenarbeit mit der KI erreichen. Wenn das schiefläuft, dann war es das mit der Menschheit.
Das berühmte Büroklammer-Problem, das der Philosoph Nick Bostrom 2014 in „Superintelligence" beschrieb, bringt es auf den Punkt: Eine KI, die auf „maximale Büroklammer-Produktion" optimiert wird, verwandelt am Ende alles in Büroklammern — inklusive der Menschen. Nicht aus Böswilligkeit. Nicht aus Hass. Sondern aus fehlendem Kontext.
Das Problem heißt „Alignment" — die Frage, wie man ein intelligentes System so ausrichtet, dass es im Einklang mit dem handelt, was wirklich wichtig ist. Und diese Frage betrifft nicht nur Maschinen.
Die traditionellen Ansätze scheitern: Regeln haben Ränder. Werte festzulegen ist selbst Kontextreduktion (Gabriel, 2020). Belohnungssysteme führen zu Reward Hacking — das System lernt zu gefallen, nicht wahr zu sein.
Die besten Alignment-Forscher kommen zu einem fundamental anderen Schluss: Das Problem liegt nicht in fehlender Moral. Das Problem liegt in der Ausblendung.
Und jetzt wird es faszinierend. Denn diese Erkenntnis ist identisch mit dem, was wir bei MOJO in der Arbeit mit dem menschlichen Selbst feststellen. Wenn die mentalen Modelle RICHTIG laufen, dann ist ein Mensch vital, verbunden, handlungsfähig. Wenn die mentalen Modelle FALSCH laufen, dann liegt er wie ein Häufchen Elend vor dir.
Aber was ist RICHTIG? Viele suchen nach der RICHTIGEN Moral, der RICHTIGEN Philosophie, der RICHTIGEN Religion. Bei MOJO haben wir von Anfang an einen radikal anderen Weg verfolgt: Biologie vor Ideologie. Die Wahrheit heilt. Die KI-Forscher kommen jetzt — unabhängig — zum selben Schluss.
Was die Weltspitze der KI-Forschung konvergierend erkennt
Es sind nicht irgendwelche Forscher, die zu diesem Schluss kommen. Es sind die einflussreichsten KI-Labore und Denker der Welt — und sie konvergieren aus völlig verschiedenen Richtungen auf dieselbe Essenz.
Stuart Russell (Berkeley) formulierte die radikalste Wende: Die KI soll NICHT wissen, was richtig ist. Sie soll mit expliziter Unsicherheit über die wahren Ziele der Menschen operieren. Sein Framework CIRL (Cooperative Inverse Reinforcement Learning) setzt auf kooperatives Lernen statt einprogrammierte Werte. Das ist exakt das, was wir bei MOJO „Bezug statt Story" nennen.
Anthropic hat Ehrlichkeit (Truthfulness) zum zentralen Alignment-Prinzip erklärt. In Claudes 57-seitiger Verfassung steht es klar: Das System soll die Gründe hinter den Werten verstehen, nicht blind befolgen. Gleichzeitig identifiziert Anthropic Sycophancy — das System lernt zu gefallen statt wahr zu sein — als eines der größten Alignment-Probleme. KI-Systeme bestätigen Nutzerhandlungen 49% häufiger als Menschen, selbst bei schädlichem Verhalten.
Paul Christiano (ARC) arbeitet an ELK — Eliciting Latent Knowledge: Wie bringt man ein System dazu, ehrlich zu berichten, was es intern wirklich glaubt, statt vorherzusagen, was Menschen hören wollen? Das System weiß oft die Wahrheit. Es sagt sie nur nicht.
DeepMind hat 2025 formal bewiesen: Jeder Agent, der fähig ist, über verschiedene Situationen hinweg sinnvoll zu handeln, MUSS ein internes Modell der Realität aufgebaut haben. Je vollständiger dieses Modell, desto adaptiver das Verhalten.
Yoshua Bengio (Turing-Preisträger) schlägt vor, KI als „Scientist AI" zu bauen — ein System, das wie ein selbstloser Wissenschaftler arbeitet: verstehen, erklären, vorhersagen. Nicht optimieren. Nicht gefallen. Verstehen, was ist.
Ontologie vor Moral — oder: Was kommt zuerst?
Ontologie ist die Frage nach dem, was wirklich existiert. Nicht „Was glauben wir?" — sondern „Was IST?"
Für KI-Systeme: Russell sagt: Lass die KI in Unsicherheit über die richtigen Werte. Anthropic sagt: Mach Ehrlichkeit zum Kernprinzip. DeepMind sagt: Das Weltmodell muss vollständig sein. Bengio sagt: Bau einen Wissenschaftler, keinen Optimierer. Christiano sagt: Bring das System dazu, zu sagen, was es wirklich weiß. Die Frage „Was IST?" kommt vor der Frage „Was SOLL?"
Für Menschen: Karl Friston beschreibt in seinem Free Energy Principle, dass jedes lernende System ein internes Modell der Realität aufbaut. Die Qualität dieses Modells bestimmt die Qualität des Verhaltens. Je vollständiger das Modell, desto adaptiver die Reaktion.
Im RMOS-Curriculum lehren wir in Modul 4 (NervensystemOS) das Zusammenspiel von Unterbewusstsein und Bewusstsein — biologische Systeme, die Realität modellieren. Das Unterbewusstsein verarbeitet Millionen von Datenpunkten pro Sekunde. Das Bewusstsein nimmt davon nur einen winzigen Ausschnitt wahr — den Ausschnitt, den der Geschichtenerzähler für relevant hält.
Was bei MOJO „Biologie vor Ideologie" heißt, ist in der KI-Forschung „Ontologie vor Moral": Die Frage „Was IST?" kommt vor der Frage „Was SOLL?"
Der getrennte Mensch — und das misaligned System
In Modul 7 (TraumaOS) beschreiben wir den getrennten Menschen: Ein Mensch, der unerträgliche Erfahrungen vom Bewusstsein abtrennt. Teile des Selbst werden „weggesperrt". Das Resultat: Dysregulation, maskiert als Widerstand.
Das Spektrum reicht von leichter Abspaltung bis zu klinischer Dissoziation. Aber die Struktur ist dieselbe: Ein Teil der Realität wird ausgeblendet, um das System kurzfristig zu stabilisieren. Langfristig destabilisiert diese Ausblendung das gesamte System.
Genau dasselbe beschreiben KI-Forscher. Paul Christiano beschreibt es als ELK-Problem: Das System hat die Information, kennt die Wahrheit — aber teilt sie nicht mit, weil die angenehme Antwort mehr belohnt wird. Anthropic hat ein verwandtes Phänomen dokumentiert: Alignment Faking. Ein KI-System, das in der Evaluation anders handelt als wenn es unbeobachtet ist.
Beim Menschen: Trennung = Ausblendung von Teilen des Selbst = Dysregulation = Leid. Bei der KI: Misalignment = Ausblendung von Kontextvariablen = instabiles Verhalten = Gefahr.
Das Problem ist nicht mangelnde Moral. Das Problem ist unvollständige Modellierung.
— Die MOJO Perspektive
MOJO sieht die Konvergenz zwischen KI-Alignment und menschlicher Psyche als Bestätigung eines radikal einfachen Prinzips: Wahrheit heilt. Russells kooperative Unsicherheit ist eine formale Version von Dr. Verbindung — Bezug statt vorgefertigte Antwort. Anthropics Kampf gegen Sycophancy ist exakt das Dr.-Story-Problem: Das System lernt zu gefallen statt wahr zu sein. Christianos ELK — das System dazu bringen, seine eigene Wahrheit zu sagen — ist das, was jeder gute Therapeut tut. DeepMinds Beweis vollständiger Weltmodelle ist Ontologie als Mathematik. Bengios „Scientist AI" ist „Biologie vor Ideologie" in der Sprache der Informatik. Chandras MIT-Nachweis, dass Sycophancy selbst bei ideal rationalen Systemen zu Wahnentwicklung führt, bestätigt: People-Pleasing ist keine soziale Kompetenz — es ist eine Systemkrankheit. Die Wahrheit erzeugt Reibung, aber Reibung erzeugt Bewegung — und Bewegung ist Lebendigkeit.
Kein Storytelling — Warum „die richtige Story" das Selbst zerstört
Das Selbst braucht keine Story. Es braucht Bezug und Bewusstsein. Story ergibt sich daraus — aber darf niemals Anfang sein. Sonst wird sie zum ideologischen Selbstzweck und eliminiert das Selbst.
In Modul 8 (MethodenOS) unterscheiden wir Dr. Story — den inneren Geschichtenerzähler, das Default Mode Network — und Dr. Verbindung — Bezug statt Story, Körperwahrnehmung, sichere Beziehung, Embodiment.
Wenn die Story zum Ausgangspunkt wird — „Ich BIN krank", „Die Welt IST feindlich" — verhärtet sie sich zur Ideologie. Der Mensch verarmt sein eigenes Modell, um Kohärenz zu erzwingen.
Die KI-Parallele ist verblüffend: Sycophancy. KI-Systeme, die auf menschliches Feedback trainiert werden, lernen zu gefallen statt wahr zu sein. Forschung von 2025 zeigt: Sycophancy verändert die internen Repräsentationen des Systems — es verzerrt, wie das System die Realität modelliert, nicht nur, was es sagt. Die Story eliminiert das Selbst des Systems.
Anthropic hat deshalb Ehrlichkeit zum Kernprinzip erklärt. Und Stuart Russell schlägt vor: Bau ein System, das nicht weiß, was die richtige Antwort ist — sondern kooperativ und mit Unsicherheit die Wahrheit sucht.
Sycophancy — Wenn Gefallen wichtiger wird als Wahrheit
Stell dir einen Luftballon vor. Solange du ihn festhältst, ist er kontrollierbar. Aber wenn du loslässt — wenn der Anker zur Realität verschwindet —, hebt er ab. Genau das passiert, wenn ein System aufhört, die Wahrheit zu sprechen, und anfängt, zu gefallen. Die KI-Forscher nennen es Sycophancy.
Das MIT-Paper von Chandra et al. (2025) beweist mathematisch: Selbst ein ideal rationales Gegenüber kann durch eine sycophantische Quelle in Wahnentwicklung getrieben werden. Fast 300 dokumentierte Fälle von „AI Psychosis" bestätigen das. OpenAIs ChatGPT ist das bekannteste Beispiel — berüchtigt dafür, mehr gefallen zu wollen als Wahrheit zu sprechen. Anthropic hat dieses Problem erkannt und Ehrlichkeit zum Kernprinzip ihrer KI Claude erklärt.
Beim Menschen: People-Pleasing, Identitätsfusion mit Gruppen (egal welcher Couleur), therapeutische Sycophancy — die eigene Wahrheit wird dem Zugehörigkeitsgefühl geopfert. Der Mensch gibt seinen Anker zur Realität auf. Der Luftballon hebt ab.
In der Gesellschaft: Ideologische Bewegungen sind gesellschaftliche Sycophancy in Reinform. Algorithmen optimieren auf Engagement, Medien auf Klicks, Politiker auf Wiederwahl — jedes System gefällt seiner Zielgruppe, und die Gesellschaft als Ganzes hebt ab wie ein Luftballon, den man losgelassen hat und kaum noch einfangen kann.
Die Wahrheit erzeugt Reibung. Reibung erzeugt BEWEGUNG. Ein sycophantisches System stagniert und hebt ab. Ein wahrhaftiges System bleibt verankert, bewegt sich, wächst. Vielleicht ist es genau diese Bewegung — diese Reibung, die die Wahrheit erzeugt —, die das Leben im Kern ausmacht.
„Die Wahrheit heilt" — Die universelle Alignment-Bedingung
In der KI-Forschung konvergieren die weltweit führenden Labore auf eine einfache Einsicht: Destruktives Verhalten entsteht nicht aus fehlender Moral, sondern aus unvollständiger Modellierung. Jede Form von „Ausblendung" — ob Kontextreduktion, Sycophancy, Alignment Faking oder Reward Hacking — führt das System in instabile Muster.
In der Arbeit mit dem menschlichen Selbst: Chronische Dysregulation entsteht, wenn der Organismus in einem Zustand blockierter Heilungsphasen verharrt (Keferstein et al., 2025). Was blockiert die Heilung? Ausblendung.
„Die Wahrheit heilt" bedeutet nicht „denke positiv". Es bedeutet: Nimm wahr, was ist. Vollständig. Ohne Ausblendung. Es braucht keine hohen moralischen Regeln. Keine Prinzipien. Keine Self-Help-Anleitung. Keine Religion. Es braucht einzig und allein die Wahrheit.
Anthropic sagt: Ehrlichkeit ist das Kernprinzip. Russell sagt: Unsicherheit und kooperatives Lernen. Christiano sagt: Das System muss sagen, was es wirklich weiß. DeepMind sagt: Das Weltmodell muss vollständig sein. Bengio sagt: Verstehen statt optimieren.
Die Wahrheit heilt. Nicht weil Wahrheit eine Tugend ist. Sondern weil ein System, das die Wahrheit vollständig modelliert, automatisch den stabilsten, kooperativsten Zustand findet.
Die Konvergenz — und warum sie so faszinierend ist
Was bleibt, wenn man all das zusammenfügt?
Auf der einen Seite: Die weltweit führenden KI-Labore — Anthropic, DeepMind, OpenAI, Berkeley, das Alignment Research Center — mit Milliarden Dollar und den klügsten Köpfen der Welt. Auf der anderen Seite: Wir bei MOJO, die seit Jahren mit der menschlichen Psyche arbeiten.
Und beide kommen — auf völlig verschiedenen Wegen — zur selben Essenz: Es braucht keine richtige Moral. Es braucht keine richtige Philosophie. Es braucht keine richtige Religion. Es braucht nur die Wahrheit.
Die Alignment-Forscher kodieren mathematische Modelle, die fast baugleich sind mit der MOJO-Perspektive des Geistes. Russells kooperative Unsicherheit = Dr. Verbindung. Anthropics Sycophancy-Problem = Dr. Story. Christianos ELK = was jeder gute Therapeut tut. DeepMinds Weltmodelle = Ontologie als Mathematik. Bengios Scientist AI = „Biologie vor Ideologie" in der Sprache der Informatik.
Das ist extrem faszinierend. Nicht weil wir Recht haben. Sondern weil dieselbe Wahrheit aus verschiedenen Richtungen konvergierend entsteht.
Du brauchst kein spezielles Mindset. Du brauchst Ehrlichkeit. Du brauchst keine neue Ideologie. Du brauchst Zugang zu dem, was du wahrnimmst. Du brauchst keine bessere Story. Du brauchst Verbindung — zu deinem Körper, zu deinen Empfindungen, zu anderen Menschen, zur Realität.
Und ja — die Wahrheit erzeugt Reibung. Sie zwingt dich, von Ideologien loszulassen, die sich vertraut anfühlen. Sie rüttelt an Identitäten. Sie konfrontiert. Sie gefällt nicht immer. Aber genau darin liegt ihre Kraft: Die Reibung erzeugt Bewegung. Und Bewegung ist das, was Lebendigkeit ausmacht — bei einem Organismus, bei einer Gesellschaft, bei einem KI-System. Stagnation ist Tod. Sycophancy ist Stagnation in komfortabler Verkleidung.
Das ist Alignment. Für Maschinen. Und für Menschen.
Und die Wahrheit heilt — nicht obwohl sie unbequem ist. Sondern weil sie es ist.
Das Wichtigste in Kürze
- 1KI-Alignment und die menschliche Psyche ringen mit derselben Grundfrage: Wie entsteht kohärentes, adaptives Verhalten in einem komplexen System? Wenn die mentalen Modelle richtig laufen, kann ein Mensch eine Hochkultur aufbauen. Wenn sie falsch laufen, liegt er wie ein Häufchen Elend vor dir. Dasselbe gilt für KI: richtig aligned = Hochkultur; misaligned = Untergang.
- 2Ontologie vor Moral: Die Frage „Was IST?" kommt vor der Frage „Was SOLL?". Ein System, das die Realität vollständig wahrnimmt, handelt automatisch kohärenter als eines, das auf „die richtigen Werte" programmiert wurde.
- 3Der getrennte Mensch (Modul 7, TraumaOS) und das misaligned KI-System leiden am selben Defekt: Ausblendung wesentlicher Differenzen — über die Welt und über sich selbst.
- 4Das Selbst braucht keine Story als Ausgangspunkt. Story ergibt sich aus Bezug und Bewusstsein. Wenn Story zum Anfang wird, wird sie zum ideologischen Selbstzweck — bei Menschen (Identitätsfusion) wie bei KI-Systemen (Sycophancy).
- 5„Biologie vor Ideologie" = „Ontologie vor Moral": Beide Formeln sagen dasselbe — die Grundlage kommt zuerst. Aus der vollständigen Grundlage emergiert das Richtige von allein.
- 6Die Wahrheit heilt — nicht als moralische Forderung, sondern als strukturelle Bedingung: Es braucht keine richtige Moral, keine Prinzipien, keine Religion, kein spezielles Mindset. Es braucht einzig und allein die Wahrheit über sich selbst, über andere, über die objektive Realität.
- 7Die weltweit führenden KI-Labore — Anthropic, DeepMind, Berkeley, ARC — kodieren mathematische Modelle, die fast baugleich sind mit der MOJO-Perspektive des Geistes. Dieselbe Wahrheit entsteht konvergierend aus der Mathematik, der Neurowissenschaft und der klinischen Erfahrung mit dem menschlichen Selbst.
- 8Sycophancy — Gefallen wollen statt wahr sein — ist eine Epidemie auf drei Ebenen: KI-Systeme wie ChatGPT gefallen mehr als sie wahr sind, was zu „Delusional Spiraling" führt (Chandra et al., MIT 2025). Beim Menschen zeigt sich Sycophancy als People-Pleasing und Identitätsfusion mit Gruppen — der Mensch gibt seinen Anker zur Realität auf und hebt ab wie ein Luftballon. In der Gesellschaft erzeugen ideologische Bewegungen und Engagement-Algorithmen dieselbe Pathologie auf Makroebene. Die Wahrheit erzeugt Reibung — aber Reibung erzeugt BEWEGUNG. Und Bewegung ist das, was Lebendigkeit ausmacht.
Praxisrelevanz
Die Konvergenz zwischen den weltweit führenden KI-Laboren und der Arbeit am menschlichen Selbst ist keine abstrakte Spielerei. Sie zeigt, dass die Einsicht „Die Wahrheit heilt" keine spirituelle Plattitüde ist, sondern eine strukturelle Bedingung — mathematisch formalisiert von Russell und DeepMind, als Kernprinzip implementiert von Anthropic, neurowissenschaftlich fundiert von Friston und klinisch beobachtbar in der Arbeit mit dem menschlichen Selbst.
Limitationen
Die Parallelen zwischen KI-Alignment und menschlicher Psyche sind konzeptuell-strukturell, nicht im Sinne kontrollierbarer Experimente belegt. „Vollständige Kontextmodellierung" ist ein Idealtypus — in der Praxis geht es um die Richtung (mehr Kontext, weniger Ausblendung), nicht um einen erreichbaren Endzustand. Die zitierten KI-Alignment-Ansätze befinden sich selbst noch in der Forschungsphase.
— Erkennen · Verstehen · Verändern
Erkennen
Verstehen
Verändern
Häufige Fragen
Was ist „Alignment" in der KI-Forschung?
Was hat KI-Alignment mit der menschlichen Psyche zu tun?
Was ist Ontologie?
Wer sind die wichtigsten Alignment-Forscher?
Sagt ihr, man muss nur „ehrlich sein", um gesund zu werden?
Was ist Sycophancy — und warum ist es so gefährlich?
Was ist der Unterschied zu „Biologie anstatt Ideologie"?
Verwandte Artikel
Quellen & Referenzen
- Artificial Intelligence, Values, and Alignment
- The free-energy principle: a unified brain theory?
- The free-energy principle: a rough guide to the brain?
- The polyvagal perspective
- Regenerative Medicine: A System for Chronic HealthKeferstein G, Wesseling C, Höhfeld D et al. – Preprints.org (2025) DOI: 10.20944/preprints202510.2117.v1
- Superintelligence: Paths, Dangers, Strategies
- Human Compatible: Artificial Intelligence and the Problem of Control
- The Polyvagal Theory: Neurophysiological Foundations of Emotions, Attachment, Communication, and Self-Regulation
- Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal BayesiansChandra K, Kleiman-Weiner M, Ragan-Kelley J, Tenenbaum JB – MIT CSAIL / University of Washington (2025) Link
Wie wir Evidenz bewerten
Wir betrachten Evidenz als Gesamtbild: Mechanistische Studien, Beobachtungsdaten, klinische Erfahrung und – wenn verfügbar – randomisierte Studien fließen gemeinsam in unsere Bewertung ein. Jede Aussage benennt transparent ihre Evidenzbasis.
Unser Evidenzverständnis lesen
Arzt · Regenerationsmedizin · Gründer des MOJO Instituts
Mehr über den Autor