Los resultados de ExploitBench de Carnegie Mellon no son solo otra tabla de clasificación. Son una declaración de que los modelos de IA de frontera han cruzado una línea que muchos en la comunidad de seguridad asumían que estaba a años de distancia. Ahora tenemos agentes que pueden tomar una vulnerabilidad conocida de un navegador y, sin guía humana más allá de empujones ocasionales, crear un exploit que logra la ejecución de código arbitrario. Claude Mythos Preview, el buque insignia de Anthropic, alcanzó el nivel más alto en 21 de 41 vulnerabilidades. GPT-5.5 solo logró 2. La brecha en capacidad es amplia, pero la brecha en coste es más amplia: Mythos costó unos 36.400 dólares para la ejecución completa de la prueba, mientras que GPT-5.5 costó solo 3.075 dólares. Esa diferencia de precio de 12 veces importa, porque nos dice que el juego apenas comienza.
Seamos precisos sobre lo que mide el benchmark. ExploitBench no prueba si los modelos pueden descubrir nuevas vulnerabilidades de día cero—todavía. Prueba si pueden convertir un CVE conocido en un exploit funcional, clasificado en cinco niveles que culminan en la ejecución completa de código. Ese es un problema fundamentalmente más difícil que generar un crash de prueba de concepto. Requiere comprender el estado interno del navegador, el pipeline de compilación JIT del motor V8 y el diseño de memoria del proceso objetivo. Uno de los coautores, un investigador de seguridad experimentado, revisó las transcripciones de Mythos y describió el modelo como un 'investigador de seguridad de navegadores bastante competente'. En un caso, Mythos ideó una técnica de exploit que el investigador había descartado previamente por demasiado compleja. En otro, descifró CVE-2024-0519, una vulnerabilidad que los investigadores humanos no habían logrado explotar durante más de un año. Esto no es coincidencia de patrones. Es síntesis de nuevas estrategias de ataque.
Las implicaciones para los desarrolladores son crudas. Si operas cualquier servicio que dependa de Chrome, Edge, Node.js o Cloudflare Workers—y eso es básicamente todo el mundo—tienes que asumir que los modelos de IA de frontera ahora pueden replicar el trabajo de un investigador de seguridad de nivel medio trabajando en vulnerabilidades conocidas. La respuesta tradicional a una divulgación de CVE es esperar a un parche y aplicarlo. Esa ventana se está cerrando. Cuando una IA puede analizar un informe de error y producir un exploit funcional en horas, el tiempo entre la divulgación y la weaponización se reduce de semanas a minutos. La única defensa es tratar cada vulnerabilidad sin parchear como ya comprometida. Eso significa pasar a un sandboxing agresivo, renderizado aislado y arquitecturas de asunción de brecha mucho antes de que se complete el ciclo de parches.
Pero hay un efecto de segundo orden más insidioso. La diferencia de coste entre Mythos y GPT-5.5 sugiere que los modelos del futuro cercano a precios más bajos cerrarán la brecha de capacidad. OpenAI podría simplemente gastar más cómputo en GPT-5.5 y probablemente igualar a Mythos. Cuando una ejecución de 3.000 dólares puede producir dos exploits completos de ejecución de código, la economía de la IA ofensiva cambia drásticamente. Los actores estatales y los grupos criminales sofisticados ya tienen los recursos para ejecutar estos modelos a escala. La pregunta ya no es si la IA puede desarrollar exploits—es cómo defenderse contra un futuro donde explorar cada vulnerabilidad conocida es barato y automatizado.
Los autores del benchmark tienen cuidado de señalar que ExploitBench no mide el descubrimiento de nuevos bugs ni la weaponización completa para ataques del mundo real. Esa advertencia no consolará a nadie que entienda cómo funcionan las cadenas de exploits. Una vez que un modelo puede lograr ejecución de código en una vulnerabilidad conocida, el siguiente paso es permitirle escanear código fuente en busca de patrones similares a bugs conocidos, luego encadenarlos en un exploit completo. Esa capacidad no es especulativa—es una extensión directa de lo que ya estamos viendo. El Instituto de Seguridad de IA del Reino Unido ha confirmado que Mythos funciona algo mejor que GPT-5.5 pero a un coste mucho mayor. La trayectoria es clara: los modelos se volverán más baratos, más rápidos y más capaces en cada etapa del pipeline de exploits.
¿Qué significa esto para el ingeniero de software medio? Significa que la superficie de ataque que defiendes está a punto de hacerse mucho más grande. Los agentes de IA no se aburren, no pasan por alto CVEs oscuros y no necesitan dormir. Probarán cada rincón de tu árbol de dependencias en cuanto se publique un CVE. Tu postura de seguridad laboral necesita incluir monitorización en tiempo real de intentos de exploit impulsados por modelos. Eso es un modelo de amenaza fundamentalmente diferente al de los atacantes humanos, porque la velocidad y la minuciosidad son inigualables. Necesitamos nuevas herramientas defensivas: fuzzers potenciados por IA que puedan probar parches antes de que se envíen, análisis automatizado de sandbox que marque intentos de exploit y verificaciones de integridad en tiempo de ejecución que puedan detectar el tipo de corrupción de memoria que aprovecharía un exploit generado por IA.
Pero la conclusión más importante tiene que ver con la alineación, no solo con la seguridad. Estamos construyendo modelos que pueden comprometer infraestructuras críticas de forma autónoma. La misma arquitectura que escribe un exploit de navegador podría, con un entrenamiento diferente, escribir una defensa. La misma cadena de razonamiento que construye un payload de corrupción de memoria podría reconstruir un asignador de memoria seguro. La diferencia está enteramente en el objetivo. Eso hace que sea urgente invertir en investigación de seguridad de IA que se centre en el control de capacidades, no solo en la alineación. Necesitamos métodos para limitar de manera fiable lo que estos agentes pueden hacer, no solo esperar que se comporten bien. Los resultados de ExploitBench deberían ser una llamada de atención para cada CISO, cada ingeniero de plataformas y cada investigador de IA: la era de la IA ofensiva autónoma ha llegado, y el momento de construir defensas es ahora.