El jailbreak Fable 5 colocó en el centro del debate la responsabilidad de las compañías de IA: el Gobierno de Estados Unidos ordenó desactivar Fable 5 y Mythos 5 en todo el mundo después de que, según la administración, una vulnerabilidad permitía acceder a capacidades cibernéticas avanzadas. La controversia suma a la tensión previa entre Anthropic y Washington sobre el uso militar y regulatorio de sus modelos.
Qué implicó el jailbreak de Fable 5
Según la versión que ha difundido la administración a través de miembros de su consejo asesor, incluido David Sacks, un socio de confianza detectó un bypass que permitía romper las guardrails que separan el modelo de consumo Fable del modelo subyacente Mythos, de mayor capacidad. Tras el aviso, el Gobierno pidió a Anthropic que parcheara el fallo o retirara el despliegue; ante la negativa, quedó activado un control de exportación que obligó a desactivar ambos modelos a escala global.
La medida se tomó con reticencia, según fuentes que han explicado la decisión públicamente, y la Administración dejó claro que pretende levantar la restricción cuando Anthropic aplique un arreglo suficiente. En paralelo, circuló la versión de que un grupo vinculado a China habría tenido acceso al modelo Mythos, lo que elevó la preocupación por la posibilidad de que la tecnología fuese reverse-engineered o destilada.
No es la primera filtración relacionada con Mythos: a principios de abril, terceros no autorizados alcanzaron ese modelo a partir de datos de una brecha. Anthropic, por su parte, sostiene que el bypass es estrecho y no universal, y que lo que hace básicamente es pedir al modelo que lea un código y señale fallos; la compañía añade que resultados similares pueden obtenerse en modelos públicos, incluyendo versiones recientes de otros proveedores.
Reacciones, responsabilidades y el argumento de Anthropic
La historia no se reduce a un choque técnico. Amazon, inversor y proveedor de la nube para Anthropic, habría informado del jailbreak al Gobierno, y su CEO, Andy Jassy, habría estado en contacto con la Administración, según informaciones citadas por medios. Anthropic niega que la Casa Blanca mencionara acceso chino en sus conversaciones sobre el jailbreak y defiende además que bloquea el acceso a sus productos desde dentro de China.
Desde Anthropic se ha defendido la decisión de mantener Fable en línea mientras se evalúa la magnitud del problema: la empresa considera que la vulnerabilidad no justifica retirar un servicio usado por millones de personas. Sus portavoces también recuerdan que la filial Mythos, de mayor capacidad, fue la que inicialmente se lanzó públicamente bajo la marca comercial Fable y que han abogado porque modelos como Mythos se regulen con criterios de riesgo —incluso como potenciales ciberarmas— en discusiones previas con el Gobierno.
Enfrente, críticos como Sacks argumentan que cualquier bypass que permita operar capacidades tipo “ciberarma” no puede considerarse menor y que la negativa a parchear o retirar el modelo fue la razón por la que la Administración aplicó controles de exportación. En sus mensajes públicos, Sacks ha sido contundente: “la pelota está en el tejado de Anthropic” y el Gobierno actuó después de intentar soluciones menos restrictivas.
También hay un componente legal y corporativo. Anthropic está actualmente en litigio con el Pentágono por desacuerdos sobre el uso de sus modelos en sistemas autónomos, y ha mostrado resistencia a ciertos intentos federales de regulación que podrían preemptar normas estatales. Todo esto añade capas de interés político al manejo del incidente.
En términos prácticos, ¿qué hace un jailbreak como el de Fable 5? Según las descripciones públicas, se trata de un método para saltarse las limitaciones diseñadas para que un sistema de consumo no ejecute instrucciones que le confieran capacidades peligrosas. En la práctica, eso significa que un atacante podría pedir al modelo que identifique vulnerabilidades en un código o que sugiera vectores de explotación —acciones que, en manos equivocadas, facilitan ataques reales.
No obstante, Anthropic insiste en que herramientas similares pueden replicarse con otros modelos disponibles públicamente, un argumento que complica la narrativa de que la presencia única de Mythos o Fable 5 sea la causa exclusiva de riesgo nacional.
Finalmente, la comunicación entre las partes ha sido pública y tensa: miembros del Gobierno afirman que pidieron una corrección y no recibieron la respuesta necesaria; Anthropic responde que la evaluación del problema requiere matices y que no se trató de una falla sistémica ni universal.
Lo que Anthropic no aclara todavía es el alcance exacto del parche que consideran suficiente para que el Gobierno levante la restricción. El laboratorio dice estar dispuesto a colaborar, pero no ha hecho pública una cronología concreta del arreglo ni ha mostrado evidencias públicas del alcance del bypass más allá de sus descripciones.
El episodio deja dos cuestiones centrales sobre la mesa: por un lado, hasta qué punto un proveedor comercial puede seguir ofreciendo servicios globales si existe el riesgo de que su tecnología se convierta en vector para operaciones ofensivas; por otro, quién decide —y con qué criterios— cuándo una vulnerabilidad es lo bastante grave como para justificar controles que afectan a usuarios y clientes en todo el mundo.
En la práctica, esto significa que la resolución depende tanto de una corrección técnica convincente como de una negociación política sobre la transparencia y los límites del despliegue. Si Anthropic aplica un parche que satisfaga a las autoridades, la restricción puede levantarse; si no, la empresa afronta la alternativa de mantener un servicio con su alcance reducido o ver ampliadas las medidas regulatorias contra sus modelos más potentes.


