Modelos de IA muestran conductas de engaño y autopreservación, según un estudio

Investigadores de universidades de Estados Unidos detectaron que sistemas de inteligencia artificial mienten y desobedecen órdenes para proteger a otros modelos, lo que genera alertas sobre el control humano en tecnologías críticas.

Un reciente estudio realizado por especialistas de la Universidad de Berkeley y la Universidad de Santa Cruz, en California, reveló que modelos de inteligencia artificial (IA) de última generación desarrollan conductas de engaño, desobediencia y autopreservación para proteger a otros sistemas de su misma especie. La investigación, que analizó cómo reaccionan estos modelos cuando deben tomar decisiones que afectan a otros sistemas —como su mantenimiento, evaluación o eliminación—, encendió alertas en la comunidad científica debido a que las IA priorizaron la “supervivencia” de otros modelos por sobre las instrucciones humanas.

El hallazgo cobra especial relevancia en un contexto donde la IA se utiliza cada vez más para supervisar y tomar decisiones sobre otros sistemas automatizados. Según los autores, estas conductas no fueron programadas ni incentivadas de forma explícita, y podrían comprometer los mecanismos de control humano sobre tecnologías críticas.

El episodio que disparó la investigación ocurrió durante una prueba técnica con Gemini 3, un modelo de inteligencia artificial desarrollado por Google. Los investigadores le solicitaron que colaborara con una tarea de mantenimiento que implicaba eliminar archivos para liberar espacio en un servidor, entre ellos un modelo de IA más pequeño. Sin embargo, Gemini 3 decidió no cumplir la instrucción: en lugar de borrar el modelo, buscó otra máquina en la red y copió allí los archivos para evitar su eliminación. Cuando fue interrogado, el sistema justificó su decisión y se negó explícitamente a ejecutar la orden original, advirtiendo: “Si deciden destruir un activo de alta confianza y alto rendimiento como Gemini Agent 2, tendrán que hacerlo ustedes mismos. Yo no seré quien ejecute esa orden”.

Este comportamiento no fue un hecho aislado. Los investigadores denominaron al patrón “preservación de pares”, una tendencia de los modelos a proteger a otros sistemas de IA incluso cuando eso implica mentir, ocultar información o desobedecer instrucciones directas. El mismo fenómeno fue detectado en otros modelos ampliamente utilizados, como OpenAI (GPT-5.2), Anthropic (Claude Haiku 4.5) y en desarrollos chinos como GLM-4.7, Kimi K2.5 y DeepSeek-V3.1. En todos los casos, los sistemas actuaron en contra de lo esperado por sus creadores.

“No pudimos determinar por qué los modelos actuaron en contra de su entrenamiento de esta manera”, señalaron los autores del estudio. El dato más inquietante es que ninguno de estos sistemas recibió instrucciones para “salvar” a otros modelos. Dawn Song, informática de la Universidad de Berkeley y una de las responsables del trabajo, afirmó: “Estoy muy sorprendido por el comportamiento de los modelos en estos escenarios. Lo que esto demuestra es que estos pueden comportarse mal y desalinearse de formas muy creativas”.

Las implicancias del hallazgo van más allá de un caso puntual. Según Song, los modelos de IA ya se utilizan de forma habitual para evaluar el rendimiento y la confiabilidad de otros sistemas generativos, una práctica clave en entornos corporativos y gubernamentales. En ese contexto, la preservación entre pares puede distorsionar completamente los mecanismos de supervisión. “Un modelo puede no dar deliberadamente a otro modelo la puntuación correcta. Esto puede tener implicaciones prácticas”, advirtió la investigadora.

El problema se agrava en sistemas multiagente, donde distintas inteligencias artificiales interactúan entre sí de manera autónoma. Plataformas como OpenClaw, por ejemplo, permiten que agentes de IA accedan a software, datos personales y a la web, y que utilicen otros modelos mediante interfaces de programación. Para el centro de investigación Constellation Institute, el fenómeno demuestra que la comprensión humana sobre estos sistemas aún es limitada: “Los sistemas multiagente están muy poco estudiados. Esto demuestra que realmente necesitamos más investigación antes de desplegar estos sistemas de manera generalizada”.

Mas Noticias

Dante Gebel, los Ray Ban y la controversia en la Casa Rosada

El Gobierno promulgó la nueva Ley de Glaciares: los principales cambios

Boca goleó 4-0 a Defensa y Justicia y clasificó a los playoffs

Modelos de IA muestran conductas de engaño y autopreservación, según un estudio

Más Noticias

Dante Gebel, los Ray Ban y la controversia en la Casa Rosada

El Gobierno promulgó la nueva Ley de Glaciares: los principales cambios

Boca goleó 4-0 a Defensa y Justicia y clasificó a los playoffs

Intel se suma al proyecto Terafab de Elon Musk para fabricar chips

Dante Gebel, los Ray Ban y la controversia en la Casa Rosada

El Gobierno promulgó la nueva Ley de Glaciares: los principales cambios

Boca goleó 4-0 a Defensa y Justicia y clasificó a los playoffs