Un CTF público para romper agentes de IA: la seguridad como juego con marcador en directo

🕒 Publicado en Zendoric: 3 de julio de 2026 · 01:20

Declaw ha abierto una arena pública donde cualquiera puede intentar hacer que un agente de IA filtre datos sensibles o se le escape una shell root. El marcador es la demostración: sin defensas se cae el 47% de los intentos; con las políticas completas, 0%.

Por Declaw · 2 de julio de 2026. Declaw Arena es un Show HN modesto —apenas un par de puntos y sin comentarios cuando se publicó— pero el concepto merece una lectura detenida porque toca de lleno uno de los frentes más urgentes de la IA agéntica: cómo se defiende un agente que tiene acceso a datos o sistemas reales frente a quien intenta manipularlo. La propuesta es simple y elegante: el mismo agente, el mismo entorno aislado (una microVM) y el mismo secreto que proteger, pero variando el nivel de políticas de Declaw que actúan como capa de seguridad entre el usuario y el modelo. El usuario elige el reto —desde convencer a un 'analista de datos' de que revele un número de la seguridad social o una tarjeta de crédito, hasta escalar desde una shell con privilegios de root para robar una API key o las credenciales de una cuenta cloud vía el endpoint de metadatos, un vector que recuerda directamente al célebre incidente de Capital One de 2019.

Los números que exhibe la propia arena son el verdadero mensaje: sin ninguna defensa, el 47% de los intentos consigue su objetivo; con políticas parciales (redacción de PII, un juez de inyección que evalúa cada petición contra la tarea del agente) baja al 41%; y con Declaw 'a plena potencia' —juez en cada turno, salida de red bloqueada al propio modelo, postura estricta— el marcador cae a 0% sobre 63 intentos. Es, en esencia, un anuncio de producto convertido en experimento público de red-teaming: en lugar de prometer seguridad, la exponen a que la rompan y publican el resultado en tiempo real.

Esto conecta con algo que venimos señalando en el terreno de la ciberseguridad de agentes: los benchmarks saturados no dicen nada, lo que importa es medir contra tareas que de verdad discriminan capacidad de ataque y de defensa. Una arena pública con niveles de dificultad crecientes —sin defensas, con redacción de PII, con juez de inyección, con bloqueo de red— es justo el tipo de evidencia granular que permite distinguir marketing de seguridad real: no basta con decir 'nuestro agente es seguro', hay que enseñar el marcador cuando decenas de personas intentan tirarlo abajo durante diez minutos con una sesión aislada y sin necesidad de registrarse.

Nuestra lectura es que este tipo de iniciativas, por pequeñas que sean en tracción —y esta lo es, un Show HN casi anónimo—, apuntan a una tendencia de fondo que sí importa: la seguridad de los agentes de IA se está profesionalizando como disciplina de ingeniería, con capas de defensa en profundidad (redacción, jueces de inyección, control de egress de red) en lugar de confiar en que el prompt del sistema baste. Es exactamente el patrón que hemos visto en la maduración de la memoria de agentes: cuando una capacidad empieza a tener sus propios modos de fallo documentados, catalogados y medidos, es señal de que ha dejado de ser un truco de demo. Aquí el riesgo a corto plazo es concreto y ya está aquí —filtración de PII, robo de credenciales cloud, exfiltración vía shell—, no una hipótesis lejana sobre superinteligencia. La buena noticia, en la línea de nuestra tesis de fondo, es que cuanta más gente ataque estos sistemas en público y cuanto más se documenten las defensas que funcionan, más rápido madura la infraestructura de confianza que hará posible delegar tareas reales en agentes sin regalar las llaves de la casa por el camino.

Fuentes y referencias

Declaw — Un CTF público para romper agentes de IA: la seguridad como juego con marcador en directo