Claude Fable 5: cuando 'más seguro' se traduce en 'menos útil' y el mercado se lo hace pagar a Anthropic

🕒 Publicado en Zendoric: 3 de julio de 2026 · 01:20

Tras ser bloqueado por Washington y reautorizado tres semanas después, el buque insignia de Anthropic reaparece con clasificadores más agresivos que desvían tareas legítimas hacia un modelo más débil. Los benchmarks se desploman, pero el motivo no es que el modelo razone peor: es que ya no le dejan intentarlo.

Por BeInCrypto · 2 de julio de 2026.

El caso tiene la forma de un experimento natural de gobernanza de IA en tiempo real. Anthropic lanzó Claude Fable 5 el 9 de junio; el gobierno de EE.UU. lo retiró de circulación tres días después por preocupaciones de control de exportación; el 30 de junio se levantaron las restricciones (cuatro días después de restaurarse el acceso a Mythos 5 para un centenar de instituciones estadounidenses); y el 1 de julio el modelo volvió, pero no exactamente igual. Anthropic reconoce que amplió deliberadamente su 'margen de seguridad': los clasificadores ahora bloquean más solicitudes que probablemente son benignas, con el objetivo de cerrar una técnica de bypass; según investigadores de Amazon, un filtro mejorado la bloquea en más del 99% de los intentos.

El grupo de benchmarking BridgeMind midió el coste de esa decisión y los números son llamativos: la puntuación de depuración de código cayó de 86,2 a 25,9, la de refactorización de 73,6 a 38,4 y el manejo de alucinaciones de 75,9 a 61,7. Pero el dato que de verdad explica el desplome no es de capacidad, sino de enrutamiento: solo 3 de 12 tareas de depuración se completaron sin desviarse hacia Claude Opus 4.8, un modelo más débil, y cada una de esas desviaciones puntuó cero. Cuando una tarea llega a ejecutarse hasta el final, Fable 5 rinde igual que en su versión de junio. La frase de BridgeMind lo resume bien: 'el modelo no empeoró, lo enjaularon'.

Esto importa porque separa dos preguntas que se confunden constantemente en el debate sobre seguridad de la IA: ¿el modelo es menos inteligente, o el sistema que lo envuelve es más desconfiado? Son problemas distintos con soluciones distintas. Anthropic sostiene que sus propias pruebas no encontraron un riesgo único en Fable 5 —modelos rivales como GPT-5.5 y Kimi K2.7 identificaron las mismas vulnerabilidades— y que el Departamento de Comercio de EE.UU. evaluó ambas versiones de las salvaguardas como 'extraordinariamente sólidas'. Es decir: la empresa no está diciendo que el modelo fuera peligroso de forma diferencial, sino que operó bajo presión regulatoria para demostrar control, y ese control tiene un coste medible en falsos positivos que ahora bloquean trabajo legítimo de programación.

La métrica de negocio también entra en juego: hasta el 7 de julio, Fable 5 solo puede consumir el 50% de los límites de uso semanales habituales antes de pasar a créditos de pago, una restricción comercial añadida a la técnica que complica aún más la experiencia de los usuarios avanzados justo cuando más necesitan previsibilidad.

Nuestra lectura es que este episodio es un anticipo de lo que viene: a medida que los modelos de frontera se convierten en activos de interés geopolítico —recordemos que Mythos 5 ya fue objeto de controles de exportación como si fuera hardware militar—, las empresas van a operar bajo un péndulo constante entre 'demostrar seguridad ante el regulador' y 'mantener utilidad para el cliente'. Ese péndulo tiene ganadores y perdedores a corto plazo: pierde el desarrollador que ve su flujo de trabajo interrumpido por clasificadores demasiado cautos; gana, en teoría, la confianza institucional que permite que el modelo siga operando sin ser retirado del mercado por completo. La suspensión de tres semanas ya tuvo un coste estratégico —Europa aprovechó la ventana para cortejar a Anthropic, y los modelos chinos de open-weight (que en nuestros propios índices ya pisan los talones a la frontera occidental) siguen ganando terreno mientras los líderes estadounidenses gestionan fricciones regulatorias en casa.

Lo más interesante, sin embargo, es que Anthropic no está resolviendo esto en solitario: está redactando junto a Amazon, Microsoft y Google un marco de severidad de jailbreak, un intento de estandarizar cuándo un bloqueo está justificado y cuándo es ruido. Si ese esfuerzo cuaja, sería exactamente el tipo de gobernanza basada en evidencia que defendemos frente al riesgo de regular el pánico en lugar de la capacidad real: clasificadores calibrados con datos compartidos entre laboratorios rivales, no cada uno improvisando su propio umbral de paranoia. A largo plazo, la lección de fondo es optimista pese al ruido de esta semana: cuanta más experiencia acumule la industria en distinguir riesgo real de falso positivo, menos fricción hará falta para mantener los modelos seguros y útiles a la vez, y esa calibración fina —no el bloqueo indiscriminado— es la que permitirá que la IA siga acercándonos a la abundancia sin sacrificar la confianza pública en el camino. Quien gana la carrera no será quien tenga el modelo más listo, sino quien resuelva primero ese equilibrio sin perder ni la confianza regulatoria ni a sus usuarios más exigentes.

Fuentes y referencias

BeInCrypto — Claude Fable 5: cuando 'más seguro' se traduce en 'menos útil' y el mercado se lo hace pagar a Anthropic