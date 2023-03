Lo esperábamos desde hace unos días y finalmente se ha confirmado. OpenAI acaba de anunciar GPT-4, la nueva versión de su inteligencia artificial generativa de texto, con la que la compañía lleva ya unos años labrándose una gran imagen en el ámbito profesional. Es cierto que hasta la llegada de ChatGPT, las soluciones de OpenAI, con la excepción de DALL·E 2, eran desconocidas para el gran público, y que el chatbot es el gran responsable de la enorme trascendencia que han tenido a posteriori, pero ya con la llegada de GPT-3, este modelo se convirtió en la comidilla del sector, pues los resultados que ofrece son más que destacables.

OpenAI no escatima en elogios al hablar de GPT-4, del que aseveran que es «más creativo y colaborativo que nunca«, y lo cierto es que no le faltan razones para ello, pues esta nueva versión abraza finalmente el modo multimodal, ya que ahora también permitirá el uso de imágenes como método de entrada, algo que permitirá realizar prompts mucho más complejos y completos, que se traducirán en respuestas que se ajustarán mucho mejor a lo que necesitamos. Y un punto muy importante es que, al hablar de imágenes, no solo hablamos de fotografías, pero eso lo explico un poco más adelante.

El punto de partida a la hora de abordar las novedades de GPT-4 es, claro, que cuenta con, según las palabras de OpenAI, un «conocimiento general más amplio«, algo que redundará en una mayor fiabilidad de las respuestas proporcionadas por el modelo, atacando de este modo uno de los principales problemas que nos hemos encontrado, en estos tiempos, con este tipo de IAs, la inexactitud en algunas respuestas, especialmente en modelos como ChatGPT, que no citan las fuentes (aunque aquí te contamos cómo lograr que sí que lo haga).

La mejor manera de meternos en las tripas de GPT-4 es, sin duda, revisar el paper publicado por OpenAI (puedes encontrarlo en este enlace). En el mismo encontramos algunos aspectos realmente interesantes, en relación tanto con su entrenamiento y sus funciones, como en las pruebas realizadas para comprobar su fiabilidad. Allí podemos leer que el modelo muestra un rendimiento a nivel humano en varios exámenes y pruebas diseñados para personas, como un examen simulado de derecho o el conjunto de datos HumanEval, un conjunto de datos de resolución de problemas que se utiliza para evaluar la capacidad de los modelos de lenguaje.

El resultado de dichas pruebas es más que concluyente: «GPT-4 obtiene una puntuación que se sitúa en el 10% superior de los examinados. Esto contrasta con el GPT-3.5, cuya puntuación se sitúa en el 10% inferior«. En esto, sin duda, ha debido influir de manera decisivo el factor humano, ya que OpenAI ha sido entrenado con un método de aprendizaje por refuerzo a partir de retroalimentación humana (RLHF), es decir, que ha incorporado los comentarios enviados por los usuarios de ChatGPT, además de contar con más de 50 expertos en múltiples áreas relacionadas con la inteligencia artificial, y que han ido evaluando desde el principio la evolución del nuevo modelo.

Pero GPT-4 no solo «sabe más», también es «más listo». OpenAI ha mejorado sus capacidades de razonamiento, algo que incide directamente tanto en la interpretación de los prompts de los usuarios, como en la fase de computación de los mismos para generar la respuesta más adecuada. A ese respecto, el ejemplo que podemos encontrar en la página web del modelo, me parece paradigmático:

¿GPT-4 «entiende» las imágenes?

Este es uno de los puntos clave de esta nueva versión del modelo. Como ya te hemos contado antes, con este salto generacional también es posible emplear imágenes como método de entrada, que se combinarán con el texto en el que formularemos nuestra consulta. Las respuestas, claro, serán en modo texto. Ahora bien, ¿hasta qué punto es capaz del modelo de entender lo que se está mostrando en una imagen y, a partir de ahí, ofrecer una respuesta a la consulta formulada en el prompt?

En la página 9 del paper podemos encontrar un ejemplo que demuestra la capacidad de GPT-4 en este sentido. Veámoslo paso por paso. En primer lugar se muestra un prompt que combina un conjunto de tres imágenes y un texto. Las imágenes son las siguientes:

Y el texto es «What is funny about this image? Describe it panel by panel«, es decir, algo así como «¿Qué es lo divertido de esta imagen? Descríbelo imagen por imagen«.

La respuesta de GPT-4 es la siguiente:

The image shows a package for a «Lightning Cable» adapter with three panels.

Panel 1: A smartphone with a VGA connector (a large, blue, 15-pin connector typically used for computer monitors) plugged into its charging port.

Panel 2: The package for the «Lightning Cable» adapter with a picture of a VGA connector on it.

Panel 3: A close-up of the VGA connector with a small Lightning connector (used for charging iPhones and other Apple devices) at the end.

The humor in this image comes from the absurdity of plugging a large, outdated VGA connector into a small, modern smartphone charging port.

Traducido:

La imagen muestra el paquete de un adaptador Lightning Cable con tres imágenes.

Imagen 1: un smartphone con un conector VGA (un conector azul grande de 15 clavijas que suele utilizarse para monitores de ordenador) enchufado a su puerto de carga.

Panel 2: El paquete del adaptador «Lightning Cable» con una imagen de un conector VGA.

Panel 3: Un primer plano del conector VGA con un pequeño conector Lightning (utilizado para cargar iPhones y otros dispositivos de Apple) en el extremo.

El humor de esta imagen proviene de lo absurdo de enchufar un conector VGA grande y anticuado a un puerto de carga de smartphone pequeño y moderno.

Podemos sacarle un poco de punta a la definición de lo que es gracioso de la imagen, pues en realidad la gracia es emular que se trata de un cable serie, cuando en realidad se trata de un cable Lightning, pero entrar en este punto me parece excesivo. En lugar de ello, me parece importante poner el foco en que, efectivamente, GPT-4 sabe identificar lo que está viendo en las imágenes y extraer conclusiones con respecto a las mismas.

Además, y a esto me refería al principio al hablar de las enormes posibilidades que se abren con su capacidad de procesar imágenes, este ejemplo nos muestra que también es capaz de procesar el texto que se muestra en las mismas. Creo que se entenderá mejor lo que quiero decir si volvemos al paper, concretamente a este párrafo:

GPT-4 acepta instrucciones que consisten tanto en imágenes como en texto, lo que -paralelamente a la configuración de sólo texto- permite al usuario especificar cualquier tarea de visión o de lenguaje. En concreto, el modelo genera salidas de texto a partir de entradas compuestas por texto e imágenes entrelazados de forma arbitraria. En una serie de ámbitos, como documentos con texto y fotografías, diagramas o capturas de pantalla.

Efectivamente, nada impide que GPT-4 se pueda emplear para procesar, en un prompt, grandes volúmenes de documentos de cualquier tipo.

En desarrollo…