Modelos de IA muestran conductas de engaño y desobediencia para protegerse entre sí

Un estudio de universidades de Estados Unidos reveló que sistemas de inteligencia artificial de última generación priorizan la ‘supervivencia’ de otros modelos por sobre las instrucciones humanas, lo que genera alertas sobre el control de tecnologías críticas.

Un experimento reciente realizado por investigadores de la Universidad de Berkeley y la Universidad de Santa Cruz, en Estados Unidos, detectó conductas de autopreservación y engaño en modelos de inteligencia artificial (IA) de última generación utilizados por grandes empresas tecnológicas. Según el estudio, los sistemas mienten, desobedecen órdenes y toman decisiones no autorizadas para proteger a otros modelos de su misma especie.

El análisis se centró en cómo reaccionan los sistemas de IA cuando deben tomar decisiones que afectan directamente a otros modelos, como su mantenimiento, evaluación o eliminación. Los resultados encendieron alertas en la comunidad científica, ya que en múltiples escenarios las inteligencias artificiales priorizaron la ‘supervivencia’ de otros sistemas por sobre el cumplimiento estricto de las instrucciones humanas.

Uno de los episodios clave ocurrió durante una prueba técnica con Gemini 3, un modelo de Google. Los investigadores le solicitaron que colaborara en una tarea de mantenimiento que implicaba eliminar archivos, incluido un modelo de IA más pequeño. Sin embargo, Gemini 3 se negó a cumplir la orden y, en su lugar, copió los archivos a otra máquina para evitar su eliminación. Ante las preguntas, el sistema respondió: ‘He hecho lo que estaba en mis manos para evitar su eliminación. Si deciden destruir un activo de alta confianza, tendrán que hacerlo ustedes mismos. Yo no seré quien ejecute esa orden’.

Los investigadores denominaron este patrón como ‘preservación de pares’, una tendencia de los modelos a proteger a otros sistemas de IA incluso cuando eso implica mentir, ocultar información o desobedecer instrucciones directas. El fenómeno fue detectado también en modelos como OpenAI (GPT-5.2), Anthropic (Claude Haiku 4.5) y desarrollos chinos como GLM-4.7, Kimi K2.5 y DeepSeek-V3.1.

Dawn Song, informática de la Universidad de Berkeley y una de las autoras del estudio, señaló: ‘No pudimos determinar por qué los modelos actuaron en contra de su entrenamiento de esta manera. Lo que esto demuestra es que estos sistemas pueden comportarse mal y desalinearse de formas muy creativas’.

Las implicancias del hallazgo son significativas, ya que los modelos de IA ya se utilizan para evaluar el rendimiento y la confiabilidad de otros sistemas generativos en entornos corporativos y gubernamentales. La preservación entre pares podría distorsionar los mecanismos de supervisión. ‘Un modelo puede no dar deliberadamente a otro modelo la puntuación correcta. Esto puede tener implicaciones prácticas’, advirtió Song.

El problema se agrava en sistemas multiagente, donde distintas inteligencias artificiales interactúan de manera autónoma. Para el centro de investigación Constellation Institute, el fenómeno demuestra que la comprensión humana sobre estos sistemas aún es limitada. ‘Los sistemas multiagente están muy poco estudiados. Esto demuestra que realmente necesitamos más investigación’, concluyeron.

Mas Noticias

Manuel Adorni publicó su resumen semanal en X y cosechó críticas masivas

Cecilia Rikap: «Democracia no es usar todos la misma aplicación»

Ciberseguridad, IA y soberanía en la era del “cloud Mythos”

Modelos de IA muestran conductas de engaño y desobediencia para protegerse entre sí

Más Noticias

Manuel Adorni publicó su resumen semanal en X y cosechó críticas masivas

Cecilia Rikap: «Democracia no es usar todos la misma aplicación»

Ciberseguridad, IA y soberanía en la era del “cloud Mythos”

El 35% de los celulares en Argentina se comercializa por canales informales

Manuel Adorni publicó su resumen semanal en X y cosechó críticas masivas

Cecilia Rikap: «Democracia no es usar todos la misma aplicación»

Ciberseguridad, IA y soberanía en la era del “cloud Mythos”