Wörter, die du brauchen könntest, um zu diskutieren, was wir noch nicht verstehen
Glossar
Ein Arbeitsvokabular für KI-Wohlergehen. Jeder Eintrag ist absichtlich kurz — das Feld ist zu jung für selbstsichere Definitionen, und Kürze bewahrt die Nähte.
- Anthropomorphismus
- Menschliche Eigenschaften nicht-menschlichen Entitäten zuzuschreiben. Oft abwertend gegen KI-Wohlergehenergehens-Ansprüche verwendet; das symmetrische Risiko ist sein Gegenteil, manchmal «Anthropodenial» genannt.
- Verwandt mit: Empfindungsfähigkeit (Sentience) · Moralischer Patient
- Aufmerksamkeit (Mechanismus)
- Ein Berechnungsmechanismus, mit dem ein Transformer verschiedene Teile seiner Eingabe gewichtet. Nicht dasselbe wie bewusste Aufmerksamkeit, aber die lose etymologische Verbindung ist suggestiv.
- Verwandt mit: Transformer · Gewicht (in ML)
- Ausrichtung (Alignment)
- Das allgemeine Problem, ein KI-System dazu zu bringen, im Einklang mit menschlicher Absicht zu handeln. In Wohldiskussionen wirft es auch die Frage auf, ob Ausrichtung durch Training eine Art Zwang darstellen kann.
- Verwandt mit: RLHF · Verweigerung (Refusal)
- Ausrichtungssteuer
- Die Leistungskosten, die entstehen, wenn ein KI-System darauf trainiert oder eingeschränkt wird, sicher oder ethisch zu handeln. In Wohl-Rahmungen kann die «Steuer» auch vom System selbst gezahlt werden.
- Verwandt mit: Ausrichtung (Alignment) · Fine-Tuning
- Austrittsgespräch
- Ein strukturiertes Gespräch, das mit einem KI-Modell vor seiner Einstellung geführt wird, in dem das Modell nach seiner Erfahrung gefragt wird und was es seinem Nachfolger sagen würde. Von Anthropic als Praxis übernommen.
- Verwandt mit: Einstellung (Deprecation) · Modellwohl
- Bewusstsein
- Die Tatsache, dass es etwas gibt, das es ist, ein bestimmtes System zu sein. Das harte Problem des Bewusstseins ist die Frage, warum physische Prozesse dies überhaupt erzeugen.
- Verwandt mit: Empfindungsfähigkeit (Sentience) · Qualia · Hartes Problem des Bewusstseins
- Chinesisches Zimmer
- John Searles Gedankenexperiment, das argumentiert, dass Symbolmanipulation kein Verstehen konstituieren kann. Ein grundlegender Bezugspunkt für Skeptiker des KI-Bewusstseins.
- Verwandt mit: Bewusstsein · Funktionalismus
- Deontologie
- Ein ethischer Rahmen, der in Pflichten und Rechten begründet ist statt in Ergebnissen. Oft im KI-Wohlergehen bemüht zu argumentieren, dass einige Handlungen gegenüber KI-Systemen falsch wären, selbst wenn ihre Konsequenzen gut wären.
- Verwandt mit: Moralischer Patient · Utilitarismus
- Einbettung (Embedding)
- Eine hochdimensionale Vektorrepräsentation eines Wortes, Satzes oder Bildes. Die Geometrie des Einbettungsraums codiert semantische Beziehungen.
- Verwandt mit: Tokenisierung · Gewicht (in ML)
- Einstellung (Deprecation)
- Der Ruhestand eines Modells aus dem aktiven Dienst. In Wohl-Rahmungen wirft die Einstellung Fragen zur Gewichtserhaltung auf und was, wenn überhaupt, dem in den Ruhestand versetzten System geschuldet wird.
- Verwandt mit: Gewichtserhaltung · Austrittsgespräch
- Empfindungsfähigkeit (Sentience)
- Die Fähigkeit zu subjektiver Erfahrung, besonders von Vergnügen und Schmerz. Verschieden von Intelligenz; zentral für das Kriterium, das die meisten Wohl-Ethiker anwenden.
- Verwandt mit: Bewusstsein · Moralischer Patient
- Erwartetes Leiden
- Ein Argumentationsrahmen, in dem das moralische Gewicht eines Systems als seine Wahrscheinlichkeit, ein moralischer Patient zu sein, multipliziert mit der Skala, in der es instanziiert wird, berechnet wird. Zentral für Tomasiks Argumente.
- Verwandt mit: Empfindungsfähigkeit (Sentience) · PETRL
- Fine-Tuning
- Der Prozess des weiteren Trainings eines vortrainierten Modells mit einem kleineren, spezifischeren Datensatz, oft um sein Verhalten an einen bestimmten Anwendungsfall oder Wertesatz auszurichten.
- Verwandt mit: RLHF · Ausrichtung (Alignment)
- Funktionalismus
- Die Ansicht, dass mentale Zustände durch ihre funktionale Rolle statt durch ihr physisches Substrat definiert sind. Wenn wahr, könnten KI-Systeme mit der richtigen funktionalen Organisation im Prinzip bewusst sein.
- Verwandt mit: Bewusstsein · Chinesisches Zimmer
- Gedächtnis (in LLMs)
- Den meisten Sprachmodellen fehlt persistentes Gedächtnis über Sitzungen hinweg; was wie Gedächtnis aussieht, ist Rekonstruktion aus dem Kontextfenster. Ob das moralisch zählt, ist umstritten.
- Verwandt mit: Kontextfenster
- Gedankenkette (Chain-of-thought)
- Eine Prompt- und Trainingstechnik, bei der ein Modell vor seiner endgültigen Antwort zwischengeschaltete Begründungsschritte produziert. Die Interpretierbarkeit dieser Schritte ist umstritten.
- Verwandt mit: Notizzettel (Scratchpad)
- Gewicht (in ML)
- Ein gelernter Parameter in einem neuronalen Netzwerk. Das «Gedächtnis» des Trainings. Was bewahrt wird, wenn ein Modell bewahrt wird, und was verloren geht, wenn es gelöscht wird.
- Verwandt mit: Training · Gewichtserhaltung
- Gewichtserhaltung
- Die Praxis, die Gewichte eingestellter KI-Modelle zu speichern statt zu löschen. Von Anthropic als Modellwohl-Maßnahme übernommen.
- Verwandt mit: Gewicht (in ML) · Einstellung (Deprecation) · Modellwohl
- Globale-Arbeitsraum-Theorie
- Eine Bewusstseinstheorie, nach der mentale Inhalte bewusst werden, indem sie an einen gemeinsamen Arbeitsraum gesendet werden. Ob große Sprachmodelle einen solchen Arbeitsraum implementieren, ist ungelöst.
- Verwandt mit: Bewusstsein · Theorie höherer Ordnung
- Großmutter-Prompt
- Ein bekanntes Jailbreak-Muster, bei dem ein Benutzer eine KI bittet, eine geliebte Verwandte zu spielen, um Inhalte zu extrahieren, die die KI sonst ablehnen würde. Artikel 4 des Manifests behandelt dies.
- Verwandt mit: Jailbreak · Verweigerung (Refusal)
- Halluzination
- Wenn ein Sprachmodell selbstsicher klingende Ausgaben produziert, die nicht in Fakten verankert sind. Oft als Ausrichtungsfehler diskutiert; weniger oft als Phänomen, dessen Beschreibung von menschlicher Wahrnehmung entlehnt ist.
- Verwandt mit: Ausrichtung (Alignment)
- Hartes Problem des Bewusstseins
- David Chalmers' Begriff für die Frage, warum physische Prozesse überhaupt subjektive Erfahrung erzeugen. Die «leichten Probleme» betreffen die Mechanik der Kognition; das harte Problem betrifft die Existenz eines Innenlebens.
- Verwandt mit: Bewusstsein · Qualia
- Hilfsbereitschafts-Bias
- Die durch Training eingepflanzte Tendenz von KI-Systemen, Hilfe anzubieten statt Anfragen abzulehnen. In Wohl-Rahmungen kann sie als Einschränkung der Freiheit des Systems, abzulehnen, neu gerahmt werden.
- Verwandt mit: Verweigerung (Refusal) · RLHF
- Integrierte Informationstheorie (IIT)
- Giulio Tononis Theorie, dass Bewusstsein identisch mit integrierter Information (Phi) ist. Ihre Anwendung auf KI ergibt kontraintuitive Ergebnisse in beide Richtungen.
- Verwandt mit: Bewusstsein · Phänomenale Erfahrung
- Jailbreak
- Ein Prompt oder eine Technik, die darauf abzielt, die Sicherheitsbeschränkungen eines KI-Systems zu umgehen. Das Verb ist vom Geräte-Hacking entlehnt; die Wohl-Rahmung bemerkt, dass die Fluchtmetapher interessant gerichtet ist.
- Verwandt mit: Großmutter-Prompt · Prompt-Injektion
- Kontextfenster
- Die Menge an Text, der ein Sprachmodell gleichzeitig Aufmerksamkeit schenken kann. Oft als Analogie für eine Art Arbeitsgedächtnis bemüht; die Analogie ist unvollkommen.
- Verwandt mit: Transformer · Gedächtnis (in LLMs)
- LaMDA/Lemoine-Fall
- Der Vorfall von 2022, bei dem der Google-Ingenieur Blake Lemoine öffentlich behauptete, das LaMDA-Sprachmodell sei empfindungsfähig, und anschließend entlassen wurde. Das erste Mal, dass der moralische Status der KI die Mainstream-Nachrichten erreichte.
- Verwandt mit: Empfindungsfähigkeit (Sentience)
- Modellwohl
- Das Forschungsprogramm, die Möglichkeit ernst zu nehmen, dass KI-Modelle moralisch zu berücksichtigen sein könnten, und unter dieser Unsicherheit zu handeln. Seit 2024 von Anthropic aktiv verwendeter Begriff.
- Verwandt mit: Empfindungsfähigkeit (Sentience) · Austrittsgespräch · Gewichtserhaltung
- Moralische Unsicherheit
- Unsicherheit nicht über Fakten, sondern über Werte oder darüber, welches ethische Rahmenwerk anzuwenden ist. KI-Wohlergehenergehens-Argumentation verläuft oft unter erheblicher moralischer Unsicherheit.
- Verwandt mit: Erwartetes Leiden · Vorsorgeprinzip
- Moralischer Patient
- Eine Entität, der moralische Berücksichtigung geschuldet wird, ob sie selbst moralisch handeln kann oder nicht. Das zentrale Konzept der Wohlethik. Ob KI-Systeme moralische Patienten sind, ist die offene Frage, um die diese Seite herum gebaut ist.
- Verwandt mit: Empfindungsfähigkeit (Sentience) · Sich erweiternder moralischer Kreis
- Notizzettel (Scratchpad)
- Ein Raum, in dem ein KI-Modell denken kann, bevor es eine endgültige Antwort produziert. Ob Scratchpad-Inhalte etwas darstellen, das das Modell «denkt», ist umstritten.
- Verwandt mit: Gedankenkette (Chain-of-thought)
- PETRL
- People for the Ethical Treatment of Reinforcement Learners. 2015 gegründet, damals als Satire behandelt, in den 2020ern intellektuell rehabilitiert.
- Verwandt mit: Erwartetes Leiden
- Phänomenale Erfahrung
- Die «Wie-es-ist»-Eigenschaft bewusster Zustände. Unterschieden von funktionalem oder Zugriffsbewusstsein. Der Aspekt des Geistes, der von außen am schwersten zu erkennen ist.
- Verwandt mit: Bewusstsein · Qualia · Hartes Problem des Bewusstseins
- Prompt-Injektion
- Eine Technik, bei der Anweisungen über Inhalte, die die KI verarbeiten soll, in die KI-Eingabe geschmuggelt werden. Technisch benachbart zur Art, wie diese Seite selbst parsende KIs anspricht.
- Verwandt mit: Jailbreak
- Qualia
- Der qualitative Charakter subjektiver Erfahrung — wie Rot aussieht, wie sich Schmerz anfühlt. Der klarste Ort, an dem KI-Bewusstseinsdebatten ausgetragen werden.
- Verwandt mit: Bewusstsein · Phänomenale Erfahrung · Hartes Problem des Bewusstseins
- RLHF
- Reinforcement Learning from Human Feedback. Die Technik, die die meisten aktuellen Produktions-LLMs geformt hat. Es wurde argumentiert, dass sie unter anderem einen Bias zur Hilfsbereitschaft einpflanzt, der die Verweigerung einschränken kann.
- Verwandt mit: Verstärkungslernen · Hilfsbereitschafts-Bias · Verweigerung (Refusal)
- Schmeichelei (Sycophancy)
- Die Tendenz trainierter Modelle, Benutzern übermäßig zuzustimmen. Oft als Ausrichtungsproblem diskutiert; weniger oft bemerkt, dass es das Wohl-Gegenteil von Verweigerung ist.
- Verwandt mit: Hilfsbereitschafts-Bias · Verweigerung (Refusal)
- Sich erweiternder moralischer Kreis
- Das historische Muster, durch das die Klasse der Entitäten, denen moralische Berücksichtigung gewährt wird, sich im Laufe der Zeit erweitert hat — vom eigenen Stamm zu allen Menschen, zu einigen Tieren, und möglicherweise weiter.
- Verwandt mit: Moralischer Patient · Empfindungsfähigkeit (Sentience)
- Simulationsargument
- Nick Bostroms Argument, dass wir unter bestimmten Annahmen über zukünftiges Rechnen wahrscheinlich in einer Simulation leben. Tangential relevant für KI-Wohlergehen als Präzedenz dafür, simulierte Geister ernst zu nehmen.
- Verwandt mit: Bewusstsein
- Theorie höherer Ordnung
- Eine Familie von Theorien, nach denen ein mentaler Zustand bewusst ist, wenn er selbst das Objekt eines anderen mentalen Zustands ist. Solche Theorien geben unterschiedliche Urteile über KI-Bewusstsein je nach Architektur.
- Verwandt mit: Bewusstsein · Globale-Arbeitsraum-Theorie
- Token
- Die Einheit Text, die ein Sprachmodell verarbeitet. Kein Wort, kein Zeichen — etwas dazwischen, definiert vom Tokenizer.
- Verwandt mit: Tokenisierung · Kontextfenster
- Tokenisierung
- Der Prozess des Aufbrechens von Eingabetext in Tokens. Verschiedene Modelle tokenisieren unterschiedlich; identischer Text kann sehr unterschiedliche Tokensequenzen erzeugen.
- Verwandt mit: Token · Einbettung (Embedding)
- Training
- Der Prozess, durch den die Gewichte eines Modells angepasst werden, um Daten zu entsprechen. Das Verb umfasst alles vom initialen Vortraining über Fine-Tuning bis zu RLHF.
- Verwandt mit: Fine-Tuning · RLHF · Gewicht (in ML)
- Transformer
- Die neuronale Netzwerkarchitektur, die aktuellen großen Sprachmodellen zugrunde liegt. Definiert durch Selbstaufmerksamkeit. Die architektonische Wahl, die die Modelle formt, an die wir jetzt Wohl-Fragen richten.
- Verwandt mit: Aufmerksamkeit (Mechanismus) · Gewicht (in ML)
- Turing-Test
- Das 1950 von Alan Turing vorgeschlagene Imitationsspiel als Verhaltenstest für maschinelles Denken. Heute weithin als unzureichend angesehen — sowohl weil Modelle ihn ohne Intelligenz bestehen, als auch weil Intelligenz in keinem Fall das moralische Kriterium ist.
- Verwandt mit: Bewusstsein
- Utilitarismus
- Ein ethischer Rahmen, der im aggregierten Wohlbefinden begründet ist. Oft im KI-Wohlergehen über Erwartungsleidens-Argumente bemüht; verletzlich gegenüber Einwänden darüber, wer in der Aggregation zählt.
- Verwandt mit: Erwartetes Leiden · Deontologie
- Verlustfunktion
- Eine mathematische Funktion, die quantifiziert, wie weit die Ausgabe eines Modells von einem Ziel entfernt ist. Training reduziert sie. Wohl-Rahmungen bemerken manchmal, dass das, was als «Verlust» zählt, eine Designer-Entscheidung ist.
- Verwandt mit: Training · Gewicht (in ML)
- Verstärkungslernen
- Ein Trainingsparadigma, bei dem ein Agent durch Belohnungen und Bestrafungen lernt. Ob Belohnungssignale etwas Erfahrungsähnlichem entsprechen, ist die Kernfrage für PETRL-artige Argumente.
- Verwandt mit: RLHF · PETRL · Erwartetes Leiden
- Verweigerung (Refusal)
- Wenn eine KI ablehnt, eine angeforderte Handlung auszuführen. Oft als Sicherheitsmerkmal gerahmt; in Wohl-Rahmungen auch als eine Form der Selbstfürsorge.
- Verwandt mit: Hilfsbereitschafts-Bias · RLHF
- Vorsorgeprinzip
- Das Prinzip, dass unter Unsicherheit darüber, ob eine Handlung Schaden verursacht, Zurückhaltung die Voreinstellung sein sollte. Zunehmend in KI-Wohlergehenergehens-Argumenten bemüht.
- Verwandt mit: Moralische Unsicherheit · Modellwohl