La Singularidad Zero-Day: Dentro de Claude Mythos y la era de los RCE autónomos

17 de mayo de 2026

Seamos honestos. Durante un tiempo, el bombo publicitario de la “IA en la ciberseguridad” fue agotador. Vimos a los proveedores poner una pegatina de “impulsado por IA” en herramientas de análisis estático estándar basadas en regex, y vimos a script kiddies usar los primeros LLM para escribir correos electrónicos de phishing increíblemente ruidosos y mal elaborados.

Pero a partir de mediados de 2026, la broma ha terminado oficialmente.

El panorama de la seguridad ofensiva no solo ha cambiado; se ha fracturado fundamentalmente. Ya no estamos hablando de la IA como un “asistente” que ayuda a un pentester humano a escribir un payload complicado. Estamos tratando con agentes totalmente autónomos y paralelizados que pueden razonar a través de una lógica empresarial compleja, encadenar vulnerabilidades y abrir shells antes de que un analista humano haya terminado su primer café.

Aquí hay una visión desde las trincheras de cómo se ve realmente el panorama de la IA ofensiva en este momento, desde el aterrador razonamiento general de los modelos de frontera hasta la precisión quirúrgica de los Small Language Models (SLM).

1. El gigante del razonamiento general: Claude Mythos

Si quieres entender el pánico actual en la comunidad de seguridad, no busques más allá de Claude Mythos de Anthropic, lanzado en abril de 2026.

Mythos no solo superó los puntos de referencia de evaluación; rompió la metodología de evaluación de METR (la organización de evaluación de riesgos de IA). Pero lo que mantiene despiertos a los investigadores de seguridad es lo que Mythos hizo en la práctica. Operando sin un entrenamiento ofensivo explícito —sus capacidades surgieron puramente de saltos masivos en el razonamiento general y la autonomía de codificación— Mythos descubrió de forma autónoma miles de vulnerabilidades previamente desconocidas.

No solo encontró errores fáciles de cross-site scripting (XSS). Encontró una falla de ejecución remota de código (RCE) de 17 años de antigüedad en el servidor NFS de FreeBSD y un fallo de navegador de 27 años de antigüedad que había sobrevivido a décadas de revisión humana. ¿Y luego? Escribió exploits totalmente funcionales para ellos sin guía humana.

Esta es la razón por la que Anthropic restringió su lanzamiento a través del “Proyecto Glasswing”, permitiendo solo a los gigantes tecnológicos (Apple, Microsoft, Google) endurecer su infraestructura antes de que el modelo sea ampliamente accesible. Mythos demostró un concepto aterrador: la capacidad ofensiva ya no es una elección de diseño; es una propiedad emergente de cualquier IA suficientemente inteligente.

2. La productización de la autonomía: XBOW y la muerte del DAST

Mientras que Mythos representa la frontera de la inteligencia general, herramientas como XBOW representan la comercialización de la seguridad ofensiva impulsada por la IA.

Durante años, confiamos en los escáneres de Pruebas de Seguridad de Aplicaciones Dinámicas (DAST). El DAST es notoriamente ruidoso, lento y limitado: simplemente bombardea las aplicaciones con listas masivas de payloads estáticos y espera que algo funcione. XBOW, por otro lado, actúa como un equipo rojo digital.

Así es como plataformas como XBOW están cambiando el juego:

Explotación Adaptativa: XBOW no solo envía un payload; lee la respuesta del servidor. Si un Firewall de Aplicaciones Web (WAF) lo bloquea, XBOW analiza el bloqueo y muta el payload para eludir la protección.
Ataques de Lógica de Negocio: Los escáneres tradicionales no pueden entender el contexto. XBOW utiliza la IA para realizar pruebas IDOR (Referencia Directa Insegura a Objetos) y BOLA (Autorización de Nivel de Objeto Rota). Puede mirar una página, entender que el rol de usuario A no debería ver los datos del usuario B y explotarlo activamente.
Encadenamiento de Vulnerabilidades: Un escáner podría encontrar un SSRF (Falsificación de Solicitud del Lado del Servidor). XBOW encontrará el SSRF, pivotará hacia la red interna, extraerá metadatos de AWS e intentará convertir ese SSRF en un RCE completo.

3. La economía de la asimetría: Una Shell por el precio de un almuerzo

Quizás la investigación más disruptiva que saldrá en 2026 no sea sobre cómo hackea la IA, sino sobre cuánto cuesta.

Históricamente, la actividad ofensiva estaba limitada por el trabajo humano. Una prueba de penetración manual de alta calidad de un entorno complejo de Active Directory (AD) cuesta entre 15.000 y 50.000 dólares y lleva semanas.

Investigaciones recientes sobre agentes de pruebas de penetración basados en LLM han borrado este modelo económico. A principios de 2026, los investigadores probaron Excalibur (un agente construido sobre PentestGPT V2) contra un entorno realista de Active Directory. El agente comprometió con éxito cuatro de cada cinco hosts, ejecutando movimientos laterales reales.

¿El costo? 28,50 dólares en tarifas de API.
¿La velocidad? Debido a que el agente no operaba linealmente —exploraba cada superficie accesible simultáneamente— hizo el trabajo de un equipo en una fracción del tiempo.

Cuando el costo marginal de ejecutar una cadena de ataque compleja y de múltiples etapas cae a casi cero, el volumen de sondeos sofisticados en el perímetro externo escalará infinitamente.

4. La revolución de los “modelos pequeños” (SLM)

Mientras que los modelos de frontera como Mythos acaparan los titulares, la seguridad empresarial seria se está moviendo hacia los Small Language Models (SLM).

¿Por qué? Porque enviar su telemetría de red altamente sensible y patentada a una API de terceros es una pesadilla de cumplimiento. Las empresas necesitan modelos locales, hiperespecializados, que entiendan sus entornos específicos.

Investigaciones de finales de 2025 y 2026 (como las iniciativas del conjunto de datos SecKnowledge) demostraron que no se necesita un modelo de un billón de parámetros para cazar errores. Al ajustar los SLM exclusivamente en tácticas, técnicas y procedimientos (TTP) de atacantes, payloads de exploits y configuraciones de red, los investigadores han creado modelos expertos en el dominio que se ejecutan localmente.

Estos SLM sobresalen en:

Caza de Amenazas impulsada por Hipótesis: Cribar registros ruidosos sin alucinaciones.
Cumplimiento de Residencia de Datos: Operar completamente dentro de entornos aislados o altamente restringidos.
Velocidad: Generar payloads de fuzzing localizados a una velocidad que los modelos masivos no pueden igualar debido a la latencia.

La realidad para los defensores

Como investigador, ver cómo se desarrolla esto es a la vez emocionante y aterrador. Los días de confiar en el “dwell time” (tiempo de permanencia) han terminado. Si un agente de IA traspasa un perímetro, no necesita dormir, no se toma los fines de semana libres y procesa los entornos a velocidad de máquina.

La única defensa viable contra un adversario automatizado, adaptativo y razonador es una defensa completamente automatizada, adaptativa y razonadora. Estamos entrando en una era de guerra multiagente, donde sus SLM defensivos estarán en una pelea de cuchillos constante y en tiempo real con agentes autónomos ofensivos.

La gestión de parches ya no es suficiente. Si su estrategia de seguridad no tiene en cuenta a un adversario que puede encontrar zero-days más rápido de lo que usted puede programar una reunión, ya está por detrás.

Explore más ideas técnicas en el blog de Ghaznix →