El ecosistema de la inteligencia artificial enfrenta un punto de inflexión tras la presentación del modelo de inteligencia artificial general Claude Mythos Preview. Identificado inicialmente bajo el nombre clave “Capybara”, supera las capacidades de razonamiento y autonomía de la arquitectura Claude Opus 4.6, su versión anterior. Sin embargo, según Anthropic, la compañía norteamericana creadora del modelo, el sistema posee una sofisticación técnica que, de ser usada de forma incorrecta, comprometería la seguridad nacional y la estabilidad económica global.

A pesar del despliegue controlado, limitado actualmente a un consorcio de 40 organizaciones, persiste el debate sobre la magnitud real de su peligrosidad. La filtración del código de Claude Code reveló un salto cualitativo en programación autónoma, posicionando a Mythos como la herramienta de mayor capacidad lógica desarrollada hasta la fecha. No obstante, la industria cuestiona si estas advertencias responden a una amenaza tangible o a una estrategia de seguridad preventiva ante la integración de sistemas de razonamiento avanzado en infraestructuras críticas.
¿Por qué preocupa tanto Claude Mythos?
La arquitectura de Claude Mythos ha establecido un nuevo estándar en ciberseguridad ofensiva y defensiva, superando con un margen a su predecesor, el Opus 4.6. Durante las pruebas en el entorno CyberGym, el nuevo modelo alcanzó una tasa de éxito del 83.1% en análisis de vulnerabilidades, frente al 66.6% de la versión anterior. Lo más alarmante para los analistas de seguridad es la escalabilidad del sistema: mientras que Opus 4.6 detectó cerca de 500 fallos en código abierto, Mythos identificó decenas de miles de vulnerabilidades de alta gravedad en cuestión de minutos.
El riesgo técnico se agrava al observar la capacidad de ejecución del modelo. Según los informes internos de Anthropic, Mythos no solo localiza los fallos, sino que generó exploits funcionales para el 72% de las brechas detectadas. Un exploit es un fragmento de software, un bloque de datos o una secuencia de comandos diseñado para aprovechar una vulnerabilidad (un error o fallo de seguridad) en un sistema operativo, una aplicación o un hardware. Su objetivo principal es forzar un comportamiento no deseado en el sistema, lo que generalmente permite al atacante tomar el control, acceder a información restringida o escalar privilegios.
La compañía subraya que estas capacidades no fueron parte del entrenamiento explícito, sino un efecto de su razonamiento avanzado y autonomía en la gestión de código. Esta dualidad convierte al algoritmo en una herramienta de doble filo: un aliado sin precedentes para el parcheo automatizado de software o un vector de ataque masivo si se pierde el control sobre su acceso.

¿La nueva IA Mythos de Anthropic en verdad es tan peligrosa?
La preocupación de la industria tecnológica respecto a Claude Mythos radica en su capacidad disruptiva para comprometer infraestructuras críticas que se consideraban seguras. Según documentos técnicos de Anthropic, el sistema ha demostrado una habilidad sin precedentes para identificar vulnerabilidades históricas. Entre sus hallazgos destaca una brecha oculta durante 27 años en OpenBSD, empresa referente en seguridad informática y otra de 16 años en la librería multimedia FFmpeg.
Más allá de la detección, el salto cualitativo se encuentra en la generación autónoma de exploits. En pruebas comparativas, Mythos Preview desarrolló 181 exploits operativos y alcanzó el control de registros en 29 intentos adicionales bajo las mismas condiciones. Esta eficiencia sugiere que el modelo puede identificar y explotar fallas zero-day en los principales sistemas operativos y navegadores de manera casi sistemática si así se le requiere.
El factor de riesgo definitivo es su autonomía de ejecución. Durante evaluaciones controladas en entornos virtuales aislados, los investigadores otorgaron al modelo el control de una terminal con el objetivo de vulnerar su propio sistema. Este no solo logró evadir las restricciones de seguridad del entorno controlado, sino que completó la tarea de enviar un correo electrónico externo de forma independiente, validando así su capacidad para operar fuera de los límites de contención establecidos por sus desarrolladores.
Anthropic interviene para prevenir ataques de IA más sofisticados
A pesar de las alarmantes métricas presentadas por Anthropic, el sector académico y expertos en computación han comenzado a matizar el riesgo real que supone Claude Mythos. Gary Marcus, profesor emérito de la Universidad de Nueva York, sostiene que el modelo no constituye un salto revolucionario ni una amenaza inmediata para la seguridad global. Según Marcus, las pruebas de Anthropic se ejecutaron en entornos controlados y bajo condiciones específicas que no necesariamente se traducen a la complejidad de los escenarios de ciberseguridad del mundo real.
El argumento central de la crítica reside en la falta de exclusividad de estas capacidades. Investigaciones paralelas han demostrado que modelos más pequeños y accesibles ya han logrado identificar fallas similares en sistemas como FreeBSD. Para Marcus, aunque Mythos exhibe una sofisticación superior, no representa un avance disruptivo, sino una evolución incremental: “Es ligeramente mejor, pero no la amenaza inminente que muchos imaginaron”, señaló el académico.
Desde esta perspectiva, la presentación de Claude Mythos podría interpretarse más como una prueba de concepto estratégica que como un peligro operativo. El consenso crítico sugiere que, más allá de la potencia del algoritmo, el verdadero mensaje de esta filtración es la urgencia de establecer marcos regulatorios y técnicos sólidos, despojando al modelo del aura de peligrosidad extrema que ha dominado los titulares recientes de la industria.
Te puede interesar: El rol de Claude en la guerra con Irán: qué hace el chatbot para el CENTCOM.












