Si el titular se confirma, la IA de Anthropic encontrando fallos en sistemas clasificados marcaría una nueva era del red teaming

🕒 Publicado en Zendoric: 25 de junio de 2026 · 09:00
Un titular de AP News atribuye a Anthropic haber detectado vulnerabilidades en sistemas clasificados de EE.UU. en horas. No disponemos del cuerpo del reportaje, así que comentamos con cautela: de confirmarse, sería un hito en ciberseguridad ofensiva asistida por IA.
Empecemos por la honestidad que exige el caso: solo disponemos del titular publicado por AP News —'Anthropic test found vulnerabilities in classified US systems in hours'— y no del cuerpo del reportaje. Por tanto, no podemos confirmar qué agencias participaron, bajo qué marco contractual o legal se realizaron las pruebas, qué vulnerabilidades concretas se hallaron ni cómo reaccionaron las partes. Atribuimos el hecho a la información de AP y lo tratamos como tal, no como una verdad cerrada. Cualquier lector que quiera certezas debería acudir al artículo original.
Hecha esa advertencia, el escenario que dibuja el titular merece reflexión por lo que representa. El 'red teaming' —simular ataques para descubrir fallos antes que los adversarios— es una disciplina veterana de la ciberseguridad. Lo novedoso sería el agente: un sistema de IA capaz de razonar sobre una infraestructura compleja y aflorar debilidades en cuestión de horas, no de semanas. Esa compresión del tiempo es, en sí misma, el dato más interesante, porque cambia la economía de la defensa: lo que antes requería equipos escasos y caros podría volverse repetible y continuo.
Es un hecho público que Anthropic, la empresa fundada en 2021 y desarrolladora de los modelos Claude, mantiene relaciones con el sector gubernamental y de defensa estadounidense, y que el uso de IA para pruebas de penetración en infraestructuras críticas es un campo en rápida expansión. En ese contexto, un ejercicio de seguridad ofensiva sobre entornos sensibles encajaría dentro de una tendencia más amplia, no como una anomalía aislada.
Conviene resistir dos tentaciones simétricas. La primera, el alarmismo: que una IA encuentre fallos rápido no significa que cualquiera pueda hacerlo con fines maliciosos, sobre todo si el ejercicio se realiza en un marco controlado y autorizado. La segunda, el triunfalismo: hallar vulnerabilidades es el principio, no el final; lo difícil es remediarlas a escala. La lectura equilibrada es que la misma capacidad que preocupa cuando está en manos hostiles se convierte en un escudo formidable cuando se pone al servicio de la defensa. Si el reporte de AP es preciso, asistiríamos a una señal temprana de cómo la IA puede inclinar, por fin, el eterno desequilibrio entre atacante y defensor hacia el lado correcto.