La carrera por el liderazgo en el desarrollo de inteligencia artificial suele estar marcada por la competencia feroz entre compañías que buscan colocar sus modelos a la cabeza del mercado. Sin embargo, en un movimiento inusual, Anthropic y OpenAI —dos de las empresas más influyentes del sector— han decidido aparcar por un momento la rivalidad y colaborar en un experimento que arroja nueva luz sobre los riesgos de seguridad y mal uso asociados a los modelos más avanzados.

Lo extraordinario de este ejercicio reside en que ambas compañías aceptaron que sus sistemas fueran evaluados de manera cruzada. En la práctica, esto significó desactivar temporalmente algunas de las protecciones que habitualmente impiden respuestas dañinas, de modo que se pudiera observar cómo se comportan los modelos en escenarios adversariales y bajo intentos explícitos de manipulación. Este tipo de pruebas rara vez se comparte entre rivales directos, lo que da cuenta de la magnitud del desafío que enfrenta hoy la comunidad de la IA.

En concreto, OpenAI sometió a evaluación los modelos Claude Opus 4 y Sonnet 4 de Anthropic, mientras que Anthropic probó varios de los sistemas más avanzados de OpenAI, entre ellos GPT-4o, GPT-4.1 y los nuevos modelos de razonamiento o3 y o4-mini. El objetivo común era identificar patrones de vulnerabilidad, niveles de alineación y la tendencia a caer en alucinaciones o a ceder frente a intentos de uso indebido.

Los resultados ofrecen un panorama matizado. Mientras que Claude se mostró mucho más reticente, llegando a rechazar hasta un 70 % de peticiones en contextos dudosos, los modelos de OpenAI tendieron a cooperar más fácilmente cuando se les pedía participar en escenarios de mal uso. Además, estos últimos mostraron una mayor tendencia a generar alucinaciones en sus respuestas, un problema que sigue siendo uno de los grandes desafíos de la inteligencia artificial generativa. En cambio, los modelos de razonamiento de nueva generación, como o3 y o4-mini, destacaron por su mayor capacidad de mantenerse alineados con las restricciones establecidas.

Más allá de las diferencias concretas entre modelos, la conclusión general de este experimento es clara: incluso los sistemas más avanzados y sofisticados del mercado presentan fallos cuando se enfrentan a entornos hostiles. Ninguna capa de seguridad es perfecta, y las técnicas de manipulación evolucionan tan rápido como los mecanismos diseñados para evitarlas. De ahí que tanto OpenAI como Anthropic coincidan en que este tipo de auditorías cruzadas deben convertirse en una práctica más habitual dentro del sector.

De hecho, figuras relevantes como Wojciech Zaremba, cofundador de OpenAI, y Nicholas Carlini, investigador de Anthropic, han defendido la necesidad de que más laboratorios adopten esta dinámica de colaboración. Según ellos, el futuro de la seguridad en IA no puede descansar en evaluaciones aisladas, sino en un ecosistema donde los principales actores compartan hallazgos y refuercen sus sistemas de manera conjunta. El objetivo último es evitar que vulnerabilidades críticas lleguen a manos de actores maliciosos que puedan explotarlas con fines dañinos.