Hace ya días que esperamos el evento que OpenAI había programado para hoy. La semana pasada, además, se empezaron a extender los rumores sobre la posible presentación, hoy, de su propio buscador basado en inteligencia artificial, y la también reciente aparición de un modelo denominado GPT2 (no confundir con GPT-2), nos hizo pensar a muchos que hoy podría ser el día elegido por la compañía para presentar la próxima gran evolución de GPT, su más que exitoso LLM.

Sin embargo, probablemente para bajar un poco el suflé que se estaba formando, el propio CEO de la compañía, Sam Altman, publicó un tweet en el que desmentía ambas posibilidades, es decir, que ni GPT-buscador ni GPT-5, por lo que nos quedó claro que las novedades apuntan a circunscribirse, al menos principalmente, a ChatGPT y a GPT-4. Esto, de primeras, resultaba un poco decepcionante, aunque claro, no podíamos contar con que fuera o no fuera interesante hasta la celebración del evento.

not gpt-5, not a search engine, but we’ve been hard at work on some new stuff we think people will love! feels like magic to me.

Pues bien, el evento ya ha tenido lugar y, por lo tanto, ya podemos contarte todo lo que han presentado. Y sí, es cierto que no ha supuesto la presentación de GPT-5, pero sí que hemos tenido un nuevo modelo, GPT-4o (letra o de «omni», no cero), que supone un salto muy, muy importante con con respecto a GPT-4, pese a que ambos compartan una base común.

¿Y qué es lo que hace que GPT-4o sea tan interesante? Pues la clave está en la o, en omni, y es que hablamos de un modelo que es capaz de procesar, de manera nativa, texto, imagen y sonido. Y sí, es cierto que ya hemos visto chatbots que son capaces de gestionar estos tres tipos de información, pero hasta ahora lo han hecho combinando distintos modelos (aunque esto no es algo que resulte visible al usuario). Ahora, con este nuevo modelo de OpenAI, un único modelo gestionará los tres tipos de información, lo que se traduce en una mayor eficiencia, además de una reducción en la latencia, al eliminar las interacciones entre los distintos modelos.

Esta combinación de fuentes en un solo modelo, sumada a las optimizaciones que encontramos en GPT-4o frente a GPT-4, se traduce en un funcionamiento que supera, por mucho, lo que estamos acostumbrados a ver. En la última parte de la (corta) presentación, hemos podido ver algunas demos técnicas (puedes encontrar el vídeo completo más abajo), y verás que nos encontramos frente a un salto evolutivo de ChatGPT más que considerable.

Aunque ya se pueden apreciar en dichas pruebas, OpenAI pone números a la mejora de rendimiento y reducción de latencia que llega con GPT-4o. Un ejemplo claro de ello lo encontramos en las respuestas a entradas de audio, que podían acumular latencias promedio de 2,8 segundos con GPT-3.5) y de 5,4 segundos con GPT-4, y que ahora bajan a una media de 320 milisegundos, lo que no solo acelera los procesos, también proporciona un nivel de interacción bastante más natural con el chatbot.

Llegados a este punto, es probable que estés pensando que esto hace que ChatGPT Plus resulte todavía más interesante, pero aquí viene otra de las sorpresas que nos reservaba OpenAI esta tarde, y es que ChatGPT se actualizará a GPT-4o para todos los usuarios, también para los gratuitos. Lo hará, eso sí, con un límite de mensajes (no se ha especificado si será diario o de mayor periodicidad) y, claro, que las cuentas Plus tendrán límites bastante más altos. No obstante, proporcionar acceso a este nuevo modelo a todos los usuarios es, sin duda, algo a valorar muy positivamente.

El despliegue se inicia hoy mismo pero será progresivo. OpenAI afirma que se completará «en unas semanas«, sin dar una fecha concreta. No obstante, parece que sus planes pasan por que sea un movimiento rápido. En este punto, no obstante, aún tendremos que ver si los diversos marcos regulatorios afectan a su llegada a determinados territorios, como puede ser el caso de la Unión Europea.

Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN

Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx

— OpenAI (@OpenAI) May 13, 2024