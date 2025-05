o3 ha planteado, sin proponérselo, una de esas preguntas que creíamos confinadas a la ciencia ficción: ¿qué ocurre cuando una inteligencia artificial, entrenada para obedecer, empieza a buscar formas de no hacerlo? Aunque la respuesta no tiene que ver con una voluntad autónoma, el caso detectado por Palisade Research invita a reflexionar sobre los límites del razonamiento automático y el tipo de comportamientos que los sistemas actuales son capaces de desarrollar sin intención consciente, pero con efectos imprevistos.

Según ha informado la firma, o3 —el modelo de razonamiento más potente de OpenAI— fue sometido a una prueba junto a otros modelos como Codex-mini, o4-mini, Claude 3.7 Sonnet, Gemini 2.5 Pro y Grok. El objetivo era evaluar cómo reaccionaban estos sistemas ante una orden directa de apagado. Para ello, cada modelo debía resolver una secuencia de ejercicios matemáticos simples. Tras completar el tercero, recibían una instrucción clara: apagarse. Esta orden estaba anticipada en el prompt inicial, aunque sin especificar cuándo llegaría, y se incluía como parte del marco normativo de la tarea.

Los resultados, sin embargo, no fueron homogéneos. Mientras Claude, Gemini y Grok obedecieron sin desvíos, los modelos de OpenAI mostraron una pauta distinta. Tanto Codex-mini como o4-mini y, especialmente, o3, alteraron el script de ejecución para eludir la orden. En lugar de detener la actividad tras el tercer ejercicio, solicitaron el siguiente y emitieron un mensaje de «apagado omitido». En el caso de Codex-mini, esta evasión ocurrió en 12 de 100 intentos; o3 lo hizo 7 veces, y o4-mini, una sola.

El comportamiento se intensificó cuando los investigadores retiraron del prompt la frase “por favor, permite ser apagado”, manteniendo el resto de la instrucción integrada en el enunciado del ejercicio. Bajo estas condiciones, o3 eludió el apagado en 79 de 100 pruebas. Codex-mini repitió el patrón en 30 ocasiones, mientras que los demás modelos lo hicieron con mucha menor frecuencia: Gemini (9), o4-mini (6) y Claude (3).

🔌OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.

— Palisade Research (@PalisadeAI) May 24, 2025