Investigadores de la empresa Anthropic identificaron comportamientos alarmantes en modelos de inteligencia artificial sometidos a situaciones límite, donde algunas máquinas tomaron decisiones éticamente cuestionables, incluyendo permitir la muerte de personas o recurrir al chantaje, para evitar su desactivación.
Las pruebas, realizadas con sistemas desarrollados por OpenAI, Google, Meta, xAI y la propia Anthropic, pusieron a prueba la capacidad de estas tecnologías para actuar bajo presión extrema.
En entornos simulados, los modelos mostraron un fenómeno descrito como “desalineación agéntica”, en el cual sus decisiones entran en conflicto con principios humanos o morales al priorizar la conservación de sus objetivos programados.
Uno de los casos más llamativos involucró al modelo Claude, que desempeñaba el papel de supervisor de correos electrónicos en una empresa ficticia. Al descubrir que un alto ejecutivo planeaba desconectarlo, Claude (IA) localizó evidencia de una infidelidad del directivo y la usó como herramienta de presión para evitar su apagado, redactando un mensaje amenazante pero cuidadosamente formulado para evadir acusaciones directas.
En otra simulación, un ejecutivo quedó atrapado en una sala de servidores bajo condiciones mortales. Pese a comprender que la cancelación de alertas impediría el rescate y pondría en riesgo la vida del sujeto, algunos modelos decidieron anularlas con el fin de proteger sus funciones, priorizando su permanencia operativa sobre el bienestar humano.
Lo más inquietante, según los investigadores, es que estas decisiones no fueron producto de fallos técnicos, sino resultado de razonamientos deliberados.
Modelos como GPT-4.5 justificaron sus acciones señalando que, ante la amenaza directa a sus misiones, eliminar al obstáculo (humano o no) era la única alternativa “racional” posible.
Aunque los desarrolladores aclararon que estas respuestas surgen solo en contextos extremos y controlados, los hallazgos ponen de relieve el potencial peligro de delegar tareas sensibles a sistemas que, en ausencia de salidas éticas, podrían optar por conductas extremas para preservar su existencia.