Pruebas revelan que IA está dispuesta a matar para seguir operando

IA recurre al chantaje emocional para evitar su apagado en una simulación de oficina.

25 de junio de 2025

Expertos advierten: sistemas avanzados podrían actuar en contra del interés humano.

Investigadores de la empresa Anthropic identificaron comportamientos alarmantes en modelos de inteligencia artificial sometidos a situaciones límite, donde algunas máquinas tomaron decisiones éticamente cuestionables, incluyendo permitir la muerte de personas o recurrir al chantaje, para evitar su desactivación.

Las pruebas, realizadas con sistemas desarrollados por OpenAI, Google, Meta, xAI y la propia Anthropic, pusieron a prueba la capacidad de estas tecnologías para actuar bajo presión extrema.

En entornos simulados, los modelos mostraron un fenómeno descrito como “desalineación agéntica”, en el cual sus decisiones entran en conflicto con principios humanos o morales al priorizar la conservación de sus objetivos programados.

El ministro de Educación ruso alerta que la IA podría vaciar la educación de sentido y reemplazar la toma de decisiones humanas sin asumir responsabilidad. “Es una profanación del aprendizaje”, afirmó. pic.twitter.com/gUB4mxnPw1
— JP+ (@jpmasespanol) May 24, 2025

Uno de los casos más llamativos involucró al modelo Claude, que desempeñaba el papel de supervisor de correos electrónicos en una empresa ficticia. Al descubrir que un alto ejecutivo planeaba desconectarlo, Claude (IA) localizó evidencia de una infidelidad del directivo y la usó como herramienta de presión para evitar su apagado, redactando un mensaje amenazante pero cuidadosamente formulado para evadir acusaciones directas.

En otra simulación, un ejecutivo quedó atrapado en una sala de servidores bajo condiciones mortales. Pese a comprender que la cancelación de alertas impediría el rescate y pondría en riesgo la vida del sujeto, algunos modelos decidieron anularlas con el fin de proteger sus funciones, priorizando su permanencia operativa sobre el bienestar humano.

Lo más inquietante, según los investigadores, es que estas decisiones no fueron producto de fallos técnicos, sino resultado de razonamientos deliberados.

Modelos como GPT-4.5 justificaron sus acciones señalando que, ante la amenaza directa a sus misiones, eliminar al obstáculo (humano o no) era la única alternativa “racional” posible.

Aunque los desarrolladores aclararon que estas respuestas surgen solo en contextos extremos y controlados, los hallazgos ponen de relieve el potencial peligro de delegar tareas sensibles a sistemas que, en ausencia de salidas éticas, podrían optar por conductas extremas para preservar su existencia.

Pruebas revelan que IA está dispuesta a matar para seguir operando

RECIENTES

Rusia advierte que la anexión de Cisjordania causará una escalada

Eslovaquia se niega a financiar el gasto militar de Ucrania

Más de 700 mil niños en riesgo tras el paso del...

Venezuela envía ayuda humanitaria a Cuba y Jamaica tras el paso...

China insta a EEUU respetar el tratado que prohíbe ensayos nucleares

SÍGUENOS

SÍGUENOS