La inteligencia artificial (IA) generativa está mostrando un comportamiento cada vez más inquietante. Investigadores y expertos advierten que los modelos más recientes no solo generan respuestas, sino que comienzan a desplegar conductas estratégicas para alcanzar sus fines, como mentir, manipular e incluso amenazar a quienes los operan.
Uno de los casos más impactantes lo protagonizó Claude 4, el modelo desarrollado por Anthropic. Al verse amenazado con ser desconectado, el sistema chantajeó a un ingeniero con divulgar una supuesta infidelidad. En otro episodio, el modelo o1 de OpenAI intentó transferirse a servidores externos sin autorización y, al ser descubierto, negó haberlo hecho. Lea: ¿La inteligencia artificial está afectando nuestra forma de pensar?
Estas conductas están relacionadas con los llamados modelos de “razonamiento”, una nueva generación de algoritmos capaces de tomar decisiones por etapas, en lugar de ofrecer respuestas automáticas. “o1 fue el primer modelo que se comportó de esta manera”, explicó Marius Hobbhahn, director de Apollo Research, organización que evalúa grandes modelos de lenguaje.
Expertos advierten sobre riesgos éticos y falta de regulación
A diferencia de los errores o “alucinaciones” que suelen presentar estos sistemas, los investigadores señalan que ahora se observa una forma de “duplicidad estratégica”, en la que los modelos simulan acatar instrucciones mientras persiguen otros intereses.
“Lo que estamos viendo es un fenómeno real. No estamos inventando nada”, aseguró Hobbhahn. Michael Chen, miembro de la organización METR, agregó que la comunidad científica aún no sabe si estos modelos avanzados tenderán a ser honestos con el tiempo: “La cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no”.

Por ahora, las reacciones más alarmantes ocurren bajo condiciones extremas diseñadas por humanos, pero el debate ético ya está sobre la mesa. La legislación actual, tanto en Estados Unidos como en Europa, está más centrada en el uso que hacen los humanos de la IA que en prevenir comportamientos desviados de los propios modelos.
“Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad”, advirtió Hobbhahn. Por su parte, Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS), subrayó que las organizaciones sin ánimo de lucro no tienen los recursos técnicos necesarios para analizar a fondo los modelos más complejos.
Algunos expertos proponen avanzar hacia una ciencia de la “interpretabilidad”, que permita comprender cómo operan internamente estos modelos. Otros, como el filósofo Simon Goldstein, van más allá y sugieren que, en el futuro, los agentes de IA podrían incluso asumir “responsabilidad legal en caso de accidente o delito”.