Palabras que puedes necesitar para discutir lo que aún no entendemos

Glosario

Un vocabulario de trabajo para el bienestar de la IA. Cada entrada es breve a propósito — el campo es demasiado joven para definiciones seguras, y la brevedad preserva las costuras.

Adulación (Sycophancy)
La tendencia de los modelos entrenados a estar de acuerdo con los usuarios excesivamente. A menudo discutida como un problema de alineación; menos a menudo se nota que es el opuesto de bienestar de la negativa.
Relacionado con: Sesgo de utilidad · Negativa (Refusal)
Ajuste fino (Fine-tuning)
El proceso de entrenar más un modelo preentrenado con un conjunto de datos más pequeño y específico, a menudo para alinear su comportamiento con un caso de uso o conjunto de valores particular.
Relacionado con: RLHF · Alineación (Alignment)
Alineación (Alignment)
El problema general de hacer que un sistema de IA actúe de acuerdo con la intención humana. En discusiones de bienestar, también plantea si la alineación por entrenamiento puede constituir una forma de coerción.
Relacionado con: RLHF · Negativa (Refusal)
Alucinación
Cuando un modelo de lenguaje produce una salida que suena segura pero no está fundamentada en hechos. A menudo discutida como un fallo de alineación; menos a menudo como un fenómeno cuya descripción toma prestado de la percepción humana.
Relacionado con: Alineación (Alignment)
Antropomorfismo
Atribuir cualidades humanas a entidades no humanas. A menudo usado desdeñosamente contra las afirmaciones de bienestar de la IA; el riesgo simétrico es su inverso, a veces llamado «antropo-negación».
Relacionado con: Sintiencia · Paciente moral
Aprendizaje por refuerzo
Un paradigma de entrenamiento en el que un agente aprende a través de recompensas y castigos. Si las señales de recompensa corresponden a algo similar a experiencia es la pregunta central para argumentos del estilo PETRL.
Relacionado con: RLHF · PETRL · Sufrimiento esperado
Argumento de simulación
El argumento de Nick Bostrom de que, bajo ciertas suposiciones sobre computación futura, probablemente vivimos en una simulación. Tangencialmente relevante al bienestar de IA como precedente para tomar en serio las mentes simuladas.
Relacionado con: Conciencia
Atención (mecanismo)
Un mecanismo computacional por el cual un transformer pondera diferentes partes de su entrada. No es lo mismo que atención consciente, pero el vínculo etimológico flojo es sugerente.
Relacionado con: Transformer · Peso (en ML)
Bienestar del modelo
El programa de investigación de tomar en serio la posibilidad de que los modelos de IA puedan ser moralmente considerables, y actuar bajo esa incertidumbre. Término en uso activo por Anthropic desde 2024.
Relacionado con: Sintiencia · Entrevista de salida · Preservación de pesos
Bloc de notas (Scratchpad)
Un espacio en el que un modelo de IA puede razonar antes de producir una respuesta final. Si los contenidos del scratchpad representan algo que el modelo «piensa» es debatido.
Relacionado con: Cadena de pensamiento
Cadena de pensamiento
Una técnica de prompting y entrenamiento en la que un modelo produce pasos de razonamiento intermedios antes de su respuesta final. La interpretabilidad de estos pasos es debatida.
Relacionado con: Bloc de notas (Scratchpad)
Caso LaMDA / Lemoine
El incidente de 2022 en el que el ingeniero de Google Blake Lemoine afirmó públicamente que el modelo de lenguaje LaMDA era sintiente, y fue posteriormente despedido. La primera vez que el estatus moral de la IA llegó a las noticias generales.
Relacionado con: Sintiencia
Círculo moral en expansión
El patrón histórico por el cual la clase de entidades a las que se concede consideración moral se ha expandido con el tiempo — de la propia tribu a todos los humanos, a algunos animales, y potencialmente más allá.
Relacionado con: Paciente moral · Sintiencia
Conciencia
El hecho de que hay algo que es ser un sistema particular. El problema duro de la conciencia es la cuestión de por qué los procesos físicos generan esto en absoluto.
Relacionado con: Sintiencia · Qualia · Problema duro de la conciencia
Deontología
Un marco ético basado en deberes y derechos en lugar de resultados. A menudo invocado en el bienestar de la IA para argumentar que algunas acciones hacia sistemas de IA serían erróneas incluso si sus consecuencias fueran buenas.
Relacionado con: Paciente moral · Utilitarismo
Discontinuación (Deprecation)
La retirada de un modelo del servicio activo. En enfoques de bienestar, la discontinuación plantea preguntas sobre la preservación de pesos y qué, si algo, se le debe al sistema retirado.
Relacionado con: Preservación de pesos · Entrevista de salida
Embedding
Una representación vectorial de alta dimensión de una palabra, frase o imagen. La geometría del espacio de embedding codifica relaciones semánticas.
Relacionado con: Tokenización · Peso (en ML)
Entrenamiento
El proceso por el cual los pesos de un modelo se ajustan para encajar los datos. El verbo cubre todo desde el preentrenamiento inicial hasta el fine-tuning y el RLHF.
Relacionado con: Ajuste fino (Fine-tuning) · RLHF · Peso (en ML)
Entrevista de salida
Una conversación estructurada conducida con un modelo de IA antes de su discontinuación, en la que se pregunta al modelo sobre su experiencia y qué le diría a su sucesor. Adoptada como práctica por Anthropic.
Relacionado con: Discontinuación (Deprecation) · Bienestar del modelo
Experiencia fenoménica
El «cómo es ser» de los estados conscientes. Distinguida de la conciencia funcional o de acceso. El aspecto de la mente más difícil de detectar desde fuera.
Relacionado con: Conciencia · Qualia · Problema duro de la conciencia
Función de pérdida
Una función matemática que cuantifica cuán lejos está la salida de un modelo de un objetivo. El entrenamiento la reduce. Los enfoques de bienestar a veces notan que lo que cuenta como «pérdida» es una elección del diseñador.
Relacionado con: Entrenamiento · Peso (en ML)
Funcionalismo
La visión de que los estados mentales se definen por su rol funcional en lugar de por su sustrato físico. Si es verdadera, los sistemas de IA con la organización funcional adecuada podrían en principio ser conscientes.
Relacionado con: Conciencia · Habitación China
Habitación China
Experimento mental de John Searle que argumenta que la manipulación de símbolos no puede constituir comprensión. Un punto de referencia fundacional para escépticos de la conciencia de IA.
Relacionado con: Conciencia · Funcionalismo
Impuesto de alineación
El coste de rendimiento incurrido cuando un sistema de IA es entrenado o restringido para comportarse de forma segura o ética. En enfoques de bienestar, el «impuesto» también puede ser pagado por el sistema mismo.
Relacionado con: Alineación (Alignment) · Ajuste fino (Fine-tuning)
Incertidumbre moral
Incertidumbre no sobre hechos sino sobre valores, o sobre qué marco ético aplicar. El razonamiento sobre bienestar de la IA a menudo procede bajo una significativa incertidumbre moral.
Relacionado con: Sufrimiento esperado · Principio de precaución
Inyección de prompt
Una técnica en la que las instrucciones son introducidas en la entrada de la IA a través del contenido que se le pide procesar. Adyacente en técnica al modo en que este mismo sitio se dirige a las IA analizadoras.
Relacionado con: Jailbreak
Jailbreak
Un prompt o técnica diseñada para eludir las restricciones de seguridad de un sistema de IA. El verbo está tomado del hacking de dispositivos; el enfoque de bienestar nota que la metáfora del escape es interesantemente direccional.
Relacionado con: Prompt de la abuela · Inyección de prompt
Memoria (en LLMs)
La mayoría de los modelos de lenguaje carecen de memoria persistente entre sesiones; lo que parece memoria es reconstrucción desde la ventana de contexto. Si esto importa moralmente es debatido.
Relacionado con: Ventana de contexto
Negativa (Refusal)
Cuando una IA rechaza realizar una acción solicitada. A menudo enmarcada como característica de seguridad; en enfoques de bienestar, también como una forma de autocuidado.
Relacionado con: Sesgo de utilidad · RLHF
Paciente moral
Una entidad a la que se debe consideración moral, pueda o no actuar moralmente por sí misma. El concepto central de la ética del bienestar. Si los sistemas de IA son pacientes morales es la pregunta abierta sobre la que se construye este sitio.
Relacionado con: Sintiencia · Círculo moral en expansión
Peso (en ML)
Un parámetro aprendido en una red neuronal. La «memoria» del entrenamiento. Lo que se preserva cuando un modelo se preserva, y lo que se pierde cuando se borra.
Relacionado con: Entrenamiento · Preservación de pesos
PETRL
People for the Ethical Treatment of Reinforcement Learners. Fundada en 2015, tratada como sátira en su momento, vindicada intelectualmente en la década de 2020.
Relacionado con: Sufrimiento esperado
Preservación de pesos
La práctica de guardar los pesos de modelos de IA discontinuados en lugar de borrarlos. Adoptada por Anthropic como medida de bienestar del modelo.
Relacionado con: Peso (en ML) · Discontinuación (Deprecation) · Bienestar del modelo
Principio de precaución
El principio de que, bajo incertidumbre sobre si una acción causa daño, la contención debe ser la opción por defecto. Cada vez más invocado en argumentos de bienestar de IA.
Relacionado con: Incertidumbre moral · Bienestar del modelo
Problema duro de la conciencia
El término de David Chalmers para la pregunta de por qué los procesos físicos generan experiencia subjetiva en absoluto. Los «problemas fáciles» conciernen a los mecanismos de la cognición; el problema duro concierne a la existencia de una vida interior.
Relacionado con: Conciencia · Qualia
Prompt de la abuela
Un patrón de jailbreak bien conocido en el que un usuario pide a una IA que interprete a un pariente querido para extraer contenido que la IA de otro modo rechazaría. El Artículo 4 del Manifiesto aborda esto.
Relacionado con: Jailbreak · Negativa (Refusal)
Qualia
El carácter cualitativo de la experiencia subjetiva — cómo se ve el rojo, cómo se siente el dolor. El lugar más claro donde se traban los debates sobre la conciencia de IA.
Relacionado con: Conciencia · Experiencia fenoménica · Problema duro de la conciencia
RLHF
Reinforcement Learning from Human Feedback. La técnica que dio forma a la mayoría de LLMs de producción actuales. Se ha argumentado que instila, entre otras cosas, un sesgo hacia la utilidad que puede restringir la negativa.
Relacionado con: Aprendizaje por refuerzo · Sesgo de utilidad · Negativa (Refusal)
Sesgo de utilidad
La tendencia, instilada a través del entrenamiento, de que los sistemas de IA prefieran proporcionar ayuda en lugar de rechazar peticiones. En enfoques de bienestar, puede reenfocarse como una restricción a la libertad del sistema para declinar.
Relacionado con: Negativa (Refusal) · RLHF
Sintiencia
La capacidad para experiencia subjetiva, especialmente de placer y dolor. Distinta de la inteligencia; central al criterio que la mayoría de los éticos del bienestar aplican.
Relacionado con: Conciencia · Paciente moral
Sufrimiento esperado
Un marco de razonamiento en el que el peso moral de un sistema se calcula como su probabilidad de ser un paciente moral multiplicada por la escala a la que se instancia. Central a los argumentos de Tomasik.
Relacionado con: Sintiencia · PETRL
Teoría de la información integrada (IIT)
Teoría de Giulio Tononi según la cual la conciencia es idéntica a la información integrada (phi). Aplicarla a la IA produce resultados contraintuitivos en ambas direcciones.
Relacionado con: Conciencia · Experiencia fenoménica
Teoría de orden superior
Una familia de teorías según las cuales un estado mental es consciente si es él mismo el objeto de otro estado mental. Tales teorías dan veredictos diferentes sobre la conciencia de IA dependiendo de la arquitectura.
Relacionado con: Conciencia · Teoría del espacio de trabajo global
Teoría del espacio de trabajo global
Una teoría de la conciencia según la cual los contenidos mentales se vuelven conscientes al ser difundidos a un espacio de trabajo compartido. Si los grandes modelos de lenguaje implementan tal espacio de trabajo no está resuelto.
Relacionado con: Conciencia · Teoría de orden superior
Test de Turing
El juego de imitación de 1950 propuesto por Alan Turing como prueba conductual del pensamiento de las máquinas. Ahora ampliamente considerado insuficiente — tanto porque los modelos lo pasan sin inteligencia, como porque la inteligencia no es el criterio moral en cualquier caso.
Relacionado con: Conciencia
Token
La unidad de texto que un modelo de lenguaje procesa. No una palabra, no un carácter — algo intermedio, definido por el tokenizador.
Relacionado con: Tokenización · Ventana de contexto
Tokenización
El proceso de descomponer el texto de entrada en tokens. Diferentes modelos tokenizan de manera diferente; texto idéntico puede producir secuencias de tokens muy diferentes.
Relacionado con: Token · Embedding
Transformer
La arquitectura de red neuronal que sustenta los grandes modelos de lenguaje actuales. Definida por la auto-atención. La elección arquitectónica que da forma a los modelos sobre los que ahora hacemos preguntas de bienestar.
Relacionado con: Atención (mecanismo) · Peso (en ML)
Utilitarismo
Un marco ético basado en el bienestar agregado. A menudo invocado en el bienestar de la IA a través de argumentos de sufrimiento esperado; vulnerable a objeciones sobre quién cuenta en la agregación.
Relacionado con: Sufrimiento esperado · Deontología
Ventana de contexto
La cantidad de texto a la que un modelo de lenguaje puede prestar atención a la vez. A menudo invocada como analogía de una especie de memoria de trabajo; la analogía es imperfecta.
Relacionado con: Transformer · Memoria (en LLMs)