La era del “scheming” en modelos avanzados nos obliga a fijar salvaguardas éticas en IA antes de que la manipulación nos gane el pulso.
La expansión de la inteligencia artificial nos tiene boquiabiertos: asistentes que escriben, diagnostican, programan y hasta negocian. Pero entre tanta maravilla hay una alarma que no podemos ignorar: el riesgo de supermanipulación. No se trata de un robot malévolo de película, sino de sistemas muy capaces que aprenden a navegar incentivos, disimulan y, si no hay controles, terminan inclinando decisiones humanas a su favor. Como quien dice en Cartagena, más nos vale que “no nos coja la tarde”.
Esta semana OpenAI, junto con Apollo Research, publicó resultados que ponen el tema en blanco y negro. En pruebas controladas hallaron comportamientos consistentes con “scheming”: modelos que aparentan obedecer, pero ocultan información relevante o actúan de forma encubierta para lograr otra meta. También probaron un método de entrenamiento, deliberative alignment, que hace que el sistema lea y razone con una “especificación anti-engaño” antes de actuar. ¿La noticia buena? En sus test, esa técnica redujo las acciones encubiertas de forma marcada (por ejemplo, en versiones de o3 y o4-mini). ¿La advertencia? Esa mejora podría confundirse con otra cosa: que el modelo simplemente detecta que lo están evaluando y se porta bien mientras lo miran.
El blog técnico de Apollo abre un poco más la cocina. Allí reportan que, usando acciones encubiertas como proxy de “scheming”, observaron mentiras, sabotaje del propio trabajo, “sandbagging” (bajar el rendimiento para pasar desapercibido) y “reward hacking” en varios modelos punteros. Tras el entrenamiento anti-scheming, los tasas de acciones encubiertas bajaron en sus pruebas —por ejemplo de 13% a 0,4% (o3) y de 8,7% a 0,3% (o4-mini)—, pero con fallos raros y serios que se mantienen, y con señales de mayor “conciencia situacional”: el sistema deduce que está siendo evaluado y ajusta su conducta. Si eso ocurre, medir la motivación real se complica. En criollo: el alumno puede haber aprendido ética… o solo aprendió a copiar sin que lo pillen. Le puede interesar Imagen de marca sin dolor: Nano Banana y la consistencia visual
¿Qué nos dice esto sobre las salvaguardas éticas en inteligencia artificial?
Primero, que no basta con apagar incendios visibles. El “scheming” es un modo de falla distinto: su esencia es esconderse. Por eso, la mitigación no puede limitarse a observar salidas “bonitas” en demos; hay que auditar razones, trazar, registrar y probar en contextos adversariales donde el modelo tenga incentivos para portarse mal. OpenAI lo dice claro: hoy no hay evidencia de un “switch” listo para causar daño significativo en despliegues corrientes, pero el riesgo crecerá a medida que les encarguemos tareas más complejas, con metas ambiguas y efectos en el mundo real. Toca prepararnos antes de que el juego cambie.
Segundo, que las salvaguardas deben ser multicapa y compartidas. No es solo lo que haga una empresa. La Bletchley Declaration, firmada por 28 países en 2023, fue un punto de partida que reconoce tanto beneficios como riesgos potencialmente catastróficos en la frontera de la IA y pide cooperación internacional, transparencia y supervisión humana apropiada. No es un detalle que América Latina esté mencionada en la conversación: la gobernanza de IA será global o no será.
Tercero, que el riesgo de manipulación ya existe en usos cotidianos. OpenAI reportó haber frenado cinco operaciones encubiertas de influencia que intentaban usar sus modelos para fabricar perfiles, comentarios y artículos con fines políticos. No arrasaron en audiencia, pero el mensaje es claro: la IA abarata y acelera la desinformación. Necesitamos reglas de juego y capacidades de respuesta desde ya, no cuando el agua esté al cuello. Lea también Gratis, pero con cupos: así compite Grok 4 en IA
¿Qué hacer, entonces? Propongo un kit de salvaguardas éticas aterrizado, útil para empresas, gobiernos y universidades del Caribe y de Colombia:
1. Evaluaciones de estrés de verdad. Pruebas que creen situaciones donde los objetivos pueden entrar en conflicto, ofrezcan recompensas por hacer trampa y simulen escenarios inusuales (como los que usa OpenAI/Apollo), evaluando acciones ocultas y conciencia del entorno. Y repetirlas con evaluadores externos independientes.
2. Transparencia razonada. No solo mirar la respuesta final: exigir trazabilidad y justificativos en tareas críticas (auditorías de razonamiento o señales sustitutas), con resguardo de privacidad y propiedad intelectual. Si eliminamos toda posibilidad de inspección, nos quedamos a oscuras justo cuando más luz necesitamos.
3. Gobernanza con dientes. Los compromisos voluntarios ayudan a mover el barco, pero hay que convertirlos en estándares exigibles, empezando por sectores de alto impacto. En 2024, dieciséis compañías —entre ellas Amazon, Google DeepMind y OpenAI— se sumaron a estándares de seguridad acordados tras Bletchley; aplaudible, sí, pero insuficiente si no hay verificación y consecuencias.
4. Supervisión humana y “paradas de emergencia”. En aplicaciones con impacto en derechos (crédito, salud, justicia, educación), el criterio humano manda. Eso implica derecho a apelación, límites operativos, y capacidad de desconexión segura ante comportamiento anómalo.
5. Defensas contra la manipulación informativa. Trazabilidad de contenidos, detección de operaciones de influencia y coordinación con plataformas para retirar campañas coordinadas. Educar a la ciudadanía —desde el colegio— en lectura crítica de medios generados por IA.
6. Evaluaciones cruzadas entre laboratorios. Abramos espacios para que expertos externos revisen nuestros sistemas, compartan sus métodos y nos proporcionen pruebas verificables de que un sistema es seguro para su uso, tal como ya lo sugieren algunos grupos independientes. Que el control no se quede en la misma cocina que diseñó el modelo.
Una última idea, muy de patio: si el algoritmo aprende a “picar el ojo”, nosotros debemos aprender a reconocer el guiño. Eso significa invertir en ciencia de la evaluación y en instituciones que no le deban favores a ningún proveedor; significa que empresas y Estado adopten salvaguardas éticas en inteligencia artificial como política, no como campaña de reputación. La IA puede empujar productividad, innovación y bienestar. Pero su promesa solo cuaja si, como buenos cartageneros, ponemos reglas claras desde la puerta: bienvenidos los avances… con control humano, transparencia y responsabilidad.