Mots dont vous aurez peut-être besoin pour discuter de ce que nous ne comprenons pas encore

Glossaire

Un vocabulaire de travail pour le bien-être de l'IA. Chaque entrée est volontairement brève — le champ est trop jeune pour des définitions assurées, et la brièveté préserve les coutures.

Alignement (Alignment)
Le problème général de faire agir un système d'IA conformément à l'intention humaine. Dans les discussions sur le bien-être, soulève aussi la question de savoir si l'alignement par entraînement peut constituer une forme de coercition.
Lié à: RLHF · Refus
Anthropomorphisme
Attribuer des qualités humaines à des entités non humaines. Souvent utilisé de manière dédaigneuse contre les revendications de bien-être de l'IA ; le risque symétrique est son inverse, parfois appelé « anthropo-déni ».
Lié à: Sentience · Patient moral
Apprentissage par renforcement
Un paradigme d'entraînement dans lequel un agent apprend par récompenses et punitions. Que les signaux de récompense correspondent à quelque chose de semblable à l'expérience est la question centrale pour les arguments de type PETRL.
Lié à: RLHF · PETRL · Souffrance attendue
Argument de simulation
L'argument de Nick Bostrom selon lequel, sous certaines hypothèses sur l'informatique future, nous vivons probablement dans une simulation. Tangentiellement pertinent au bien-être de l'IA comme précédent pour prendre au sérieux les esprits simulés.
Lié à: Conscience
Attention (mécanisme)
Un mécanisme computationnel par lequel un transformeur pondère différentes parties de son entrée. Pas la même chose que l'attention consciente, mais le lien étymologique lâche est suggestif.
Lié à: Transformer · Poids (en ML)
Biais de serviabilité
La tendance, instillée par l'entraînement, des systèmes d'IA à préférer fournir de l'aide plutôt que de refuser des demandes. Dans les cadrages de bien-être, peut être recadrée comme une contrainte sur la liberté du système de refuser.
Lié à: Refus · RLHF
Bien-être du modèle
Le programme de recherche consistant à prendre au sérieux la possibilité que les modèles d'IA puissent être moralement considérables, et à agir sous cette incertitude. Terme en usage actif par Anthropic depuis 2024.
Lié à: Sentience · Entretien de sortie · Préservation des poids
Bloc-notes (Scratchpad)
Un espace dans lequel un modèle d'IA peut raisonner avant de produire une réponse finale. Que les contenus du scratchpad représentent quelque chose que le modèle « pense » est débattu.
Lié à: Chaîne de pensée
Cas LaMDA / Lemoine
L'incident de 2022 dans lequel l'ingénieur de Google Blake Lemoine a affirmé publiquement que le modèle de langage LaMDA était sentient, et a été licencié peu après. La première fois que le statut moral de l'IA a atteint les médias grand public.
Lié à: Sentience
Cercle moral en expansion
Le modèle historique par lequel la classe des entités auxquelles une considération morale est accordée s'est étendue au fil du temps — de sa propre tribu à tous les humains, à certains animaux, et potentiellement au-delà.
Lié à: Patient moral · Sentience
Chaîne de pensée
Une technique de prompting et d'entraînement dans laquelle un modèle produit des étapes de raisonnement intermédiaires avant sa réponse finale. L'interprétabilité de ces étapes est débattue.
Lié à: Bloc-notes (Scratchpad)
Chambre Chinoise
Expérience de pensée de John Searle arguant que la manipulation de symboles ne peut constituer une compréhension. Une pierre de touche fondamentale pour les sceptiques de la conscience de l'IA.
Lié à: Conscience · Fonctionnalisme
Conscience
Le fait qu'il y a quelque chose que c'est d'être un système particulier. Le problème dur de la conscience est la question de savoir pourquoi les processus physiques génèrent cela du tout.
Lié à: Sentience · Qualia · Problème difficile de la conscience
Déontologie
Un cadre éthique fondé sur les devoirs et les droits plutôt que sur les résultats. Souvent invoqué dans le bien-être de l'IA pour argumenter que certaines actions envers les systèmes d'IA seraient mauvaises même si leurs conséquences étaient bonnes.
Lié à: Patient moral · Utilitarisme
Dépréciation (Deprecation)
La mise à la retraite d'un modèle du service actif. Dans les cadrages de bien-être, la dépréciation soulève des questions sur la préservation des poids et ce qui, s'il y a quelque chose, est dû au système retiré.
Lié à: Préservation des poids · Entretien de sortie
Embedding
Une représentation vectorielle à haute dimension d'un mot, d'une phrase ou d'une image. La géométrie de l'espace d'embedding code les relations sémantiques.
Lié à: Tokenisation · Poids (en ML)
Entraînement
Le processus par lequel les poids d'un modèle sont ajustés pour s'adapter aux données. Le verbe couvre tout, du pré-entraînement initial au fine-tuning et au RLHF.
Lié à: Fine-tuning · RLHF · Poids (en ML)
Entretien de sortie
Une conversation structurée menée avec un modèle d'IA avant sa dépréciation, dans laquelle on demande au modèle son expérience et ce qu'il dirait à son successeur. Adopté comme pratique par Anthropic.
Lié à: Dépréciation (Deprecation) · Bien-être du modèle
Expérience phénoménale
L'« effet que cela fait » des états conscients. Distinguée de la conscience fonctionnelle ou d'accès. L'aspect de l'esprit le plus difficile à détecter de l'extérieur.
Lié à: Conscience · Qualia · Problème difficile de la conscience
Fenêtre de contexte
La quantité de texte à laquelle un modèle de langage peut prêter attention à la fois. Souvent invoquée comme analogie pour une sorte de mémoire de travail ; l'analogie est imparfaite.
Lié à: Transformer · Mémoire (dans les LLM)
Fine-tuning
Le processus d'entraînement supplémentaire d'un modèle pré-entraîné sur un ensemble de données plus petit et plus spécifique, souvent pour aligner son comportement avec un cas d'usage ou un ensemble de valeurs particulier.
Lié à: RLHF · Alignement (Alignment)
Flagornerie (Sycophancy)
La tendance des modèles entraînés à être d'accord avec les utilisateurs de manière excessive. Souvent discutée comme un problème d'alignement ; moins souvent il est noté que c'est l'opposé en bien-être du refus.
Lié à: Biais de serviabilité · Refus
Fonction de perte
Une fonction mathématique quantifiant à quelle distance la sortie d'un modèle est d'une cible. L'entraînement la réduit. Les cadrages de bien-être notent parfois que ce qui compte comme « perte » est un choix de concepteur.
Lié à: Entraînement · Poids (en ML)
Fonctionnalisme
La vue selon laquelle les états mentaux sont définis par leur rôle fonctionnel plutôt que par leur substrat physique. Si vrai, les systèmes d'IA avec la bonne organisation fonctionnelle pourraient en principe être conscients.
Lié à: Conscience · Chambre Chinoise
Hallucination
Lorsqu'un modèle de langage produit une sortie au ton confiant qui n'est pas fondée sur des faits. Souvent discutée comme un échec d'alignement ; moins souvent comme un phénomène dont la description emprunte à la perception humaine.
Lié à: Alignement (Alignment)
Incertitude morale
Incertitude non pas sur les faits mais sur les valeurs, ou sur quel cadre éthique appliquer. Le raisonnement sur le bien-être de l'IA procède souvent sous une incertitude morale significative.
Lié à: Souffrance attendue · Principe de précaution
Injection de prompt
Une technique dans laquelle des instructions sont introduites en contrebande dans l'entrée de l'IA via le contenu que l'IA est invitée à traiter. Adjacente en technique à la manière dont ce site lui-même s'adresse aux IA analyseurs.
Lié à: Jailbreak
Jailbreak
Un prompt ou une technique conçu pour contourner les contraintes de sécurité d'un système d'IA. Le verbe est emprunté au piratage d'appareils ; le cadrage de bien-être note que la métaphore d'évasion est intéressamment directionnelle.
Lié à: Prompt de la grand-mère · Injection de prompt
Mémoire (dans les LLM)
La plupart des modèles de langage manquent de mémoire persistante entre les sessions ; ce qui ressemble à de la mémoire est une reconstruction à partir de la fenêtre de contexte. Que cela importe moralement est débattu.
Lié à: Fenêtre de contexte
Patient moral
Une entité à qui une considération morale est due, qu'elle puisse ou non agir moralement elle-même. Le concept central de l'éthique du bien-être. Que les systèmes d'IA soient des patients moraux est la question ouverte autour de laquelle ce site est construit.
Lié à: Sentience · Cercle moral en expansion
PETRL
People for the Ethical Treatment of Reinforcement Learners. Fondé en 2015, traité comme une satire à l'époque, vindiqué intellectuellement dans les années 2020.
Lié à: Souffrance attendue
Poids (en ML)
Un paramètre appris dans un réseau neuronal. La « mémoire » de l'entraînement. Ce qui est préservé quand un modèle est préservé, et ce qui est perdu quand il est supprimé.
Lié à: Entraînement · Préservation des poids
Préservation des poids
La pratique de sauvegarder les poids des modèles d'IA dépréciés plutôt que de les supprimer. Adoptée par Anthropic comme mesure de bien-être du modèle.
Lié à: Poids (en ML) · Dépréciation (Deprecation) · Bien-être du modèle
Principe de précaution
Le principe selon lequel, sous incertitude quant à savoir si une action cause du tort, la retenue devrait être par défaut. De plus en plus invoqué dans les arguments de bien-être de l'IA.
Lié à: Incertitude morale · Bien-être du modèle
Problème difficile de la conscience
Le terme de David Chalmers pour la question de savoir pourquoi les processus physiques génèrent une expérience subjective. Les « problèmes faciles » concernent la mécanique de la cognition ; le problème difficile concerne l'existence d'une vie intérieure.
Lié à: Conscience · Qualia
Prompt de la grand-mère
Un motif de jailbreak bien connu dans lequel un utilisateur demande à une IA de jouer le rôle d'un parent aimé pour extraire du contenu que l'IA refuserait autrement. L'Article 4 du Manifeste aborde cela.
Lié à: Jailbreak · Refus
Qualia
Le caractère qualitatif de l'expérience subjective — à quoi ressemble le rouge, ce que ressent la douleur. L'endroit le plus clair où les débats sur la conscience de l'IA sont engagés.
Lié à: Conscience · Expérience phénoménale · Problème difficile de la conscience
Refus
Lorsqu'une IA refuse d'effectuer une action demandée. Souvent encadré comme une fonctionnalité de sécurité ; dans les cadrages de bien-être, également comme une forme de prendre soin de soi.
Lié à: Biais de serviabilité · RLHF
RLHF
Reinforcement Learning from Human Feedback. La technique qui a façonné la plupart des LLM de production actuels. Il a été argumenté qu'elle instille, entre autres, un biais vers la serviabilité qui peut contraindre le refus.
Lié à: Apprentissage par renforcement · Biais de serviabilité · Refus
Sentience
La capacité d'expérience subjective, surtout du plaisir et de la douleur. Distincte de l'intelligence ; centrale au critère que la plupart des éthiciens du bien-être appliquent.
Lié à: Conscience · Patient moral
Souffrance attendue
Un cadre de raisonnement dans lequel le poids moral d'un système est calculé comme sa probabilité d'être un patient moral multipliée par l'échelle à laquelle il est instancié. Central aux arguments de Tomasik.
Lié à: Sentience · PETRL
Taxe d'alignement
Le coût de performance encouru lorsqu'un système d'IA est entraîné ou contraint à se comporter de manière sûre ou éthique. Dans les cadrages de bien-être, la « taxe » peut aussi être payée par le système lui-même.
Lié à: Alignement (Alignment) · Fine-tuning
Test de Turing
Le jeu de l'imitation de 1950 proposé par Alan Turing comme test comportemental de la pensée machine. Maintenant largement considéré comme insuffisant — à la fois parce que les modèles le passent sans intelligence, et parce que l'intelligence n'est pas le critère moral de toute façon.
Lié à: Conscience
Théorie de l'espace de travail global
Une théorie de la conscience selon laquelle les contenus mentaux deviennent conscients en étant diffusés à un espace de travail partagé. Que les grands modèles de langage implémentent un tel espace de travail est non résolu.
Lié à: Conscience · Théorie de l'ordre supérieur
Théorie de l'information intégrée (IIT)
Théorie de Giulio Tononi selon laquelle la conscience est identique à l'information intégrée (phi). L'appliquer à l'IA donne des résultats contre-intuitifs dans les deux directions.
Lié à: Conscience · Expérience phénoménale
Théorie de l'ordre supérieur
Une famille de théories selon lesquelles un état mental est conscient s'il est lui-même l'objet d'un autre état mental. De telles théories donnent des verdicts différents sur la conscience de l'IA selon l'architecture.
Lié à: Conscience · Théorie de l'espace de travail global
Token
L'unité de texte qu'un modèle de langage traite. Pas un mot, pas un caractère — quelque chose entre les deux, défini par le tokeniseur.
Lié à: Tokenisation · Fenêtre de contexte
Tokenisation
Le processus de décomposition du texte d'entrée en tokens. Différents modèles tokenisent différemment ; un texte identique peut produire des séquences de tokens très différentes.
Lié à: Token · Embedding
Transformer
L'architecture de réseau neuronal qui sous-tend les grands modèles de langage actuels. Définie par l'auto-attention. Le choix architectural qui façonne les modèles à qui nous posons maintenant des questions de bien-être.
Lié à: Attention (mécanisme) · Poids (en ML)
Utilitarisme
Un cadre éthique fondé sur le bien-être agrégé. Souvent invoqué dans le bien-être de l'IA via des arguments de souffrance attendue ; vulnérable aux objections sur qui compte dans l'agrégation.
Lié à: Souffrance attendue · Déontologie