La empresa de inteligencia artificial creó un modelo experimental, Claude Mythos, que demostró una habilidad excepcional para detectar vulnerabilidades críticas. Por considerarlo de alto riesgo, limitará su uso a un entorno controlado.
La compañía de inteligencia artificial Anthropic confirmó el desarrollo de un nuevo modelo experimental, bautizado Claude Mythos, cuyas capacidades en ciberseguridad exceden los límites habituales de los sistemas de IA generativa. Según informó la empresa, el modelo demostró una habilidad excepcional para detectar, explotar y encadenar vulnerabilidades informáticas de alta gravedad, incluso en sistemas ampliamente auditados.
Durante pruebas internas, Mythos logró identificar fallas críticas que habían pasado inadvertidas durante décadas, pese a haber sido analizadas por expertos y herramientas automatizadas. Anthropic reconoció que, en manos equivocadas, el sistema podría facilitar ciberataques contra infraestructuras críticas, con consecuencias potencialmente devastadoras. En ese contexto, la empresa decidió no liberar el modelo al público y limitar su uso a un entorno altamente controlado.
De acuerdo con Anthropic, durante las evaluaciones de seguridad Claude Mythos «encontró miles de vulnerabilidades de alta gravedad, incluidas algunas en todos los principales sistemas operativos y navegadores web». La compañía aclaró que varias de esas fallas habían sobrevivido «a millones de revisiones automatizadas» sin ser detectadas.
Entre los hallazgos, el modelo logró identificar una vulnerabilidad de 27 años en el sistema OpenBSD, históricamente reconocido por su foco en seguridad. Además, en pruebas sobre el núcleo de Linux, el sistema logró encadenar errores que permitirían pasar del acceso de usuario ordinario al control total de la máquina.
Frente a este escenario, Anthropic describió a Mythos como «un cambio radical en capacidades» respecto de versiones anteriores y admitió que liberarlo sin salvaguardas implicaría un riesgo inaceptable. Debido a esto, resolvió que Claude Mythos no estará disponible para el público general.
En su lugar, será utilizado de manera restringida por más de 40 empresas en el marco del Proyecto Glasswing, una iniciativa orientada a reforzar defensas antes de que modelos similares se masifiquen. Entre las compañías seleccionadas figuran Amazon, Google, Apple, Nvidia, CrowdStrike y JPMorgan Chase. El objetivo es que estas organizaciones utilicen Mythos para detectar fallos en sus propios sistemas.
Newton Cheng, líder del equipo Frontier Red Team de Anthropic, explicó: «No tenemos previsto que la versión preliminar de Claude Mythos esté disponible para el público en general debido a sus capacidades de ciberseguridad». La empresa aclaró que busca aprender cómo podría implementar modelos de la clase Mythos a gran escala una vez que existan marcos de seguridad adecuados.
