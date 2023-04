Los modelos de inteligencia artificial generativa de imágenes, como Midjourney, DALL-E 2 y Stable Diffusion se han popularizado enormemente en los últimos tiempos. Aunque su esplendor se ha visto eclipsado los últimos meses por sus “hermanos” los chatbots, la generación de imágenes ya se ha convertido en una herramienta del día a día de muchos profesionales, y las mejoras en los modelos (DALL-E 2 parece que finalmente ha aprendido a dibujar manos humanas) hacen que estas IA ofrezcan generaciones cada vez más fiables y, por lo tanto, más cercanas al objetivo planteado por cada prompt.

Hay, no obstante, un problema en este punto, y es que confeccionar un prompt no es tan sencillo como podría parecer en un primer momento. Estos modelos están entrenados para entender lenguaje natural, pero incluso el mejor de los desarrollos en este sentido tiene limitaciones. Esto ha dado lugar a que proliferen las páginas web en las que podemos encontrar prompts creados por terceros, pero también servicios comerciales en los que podemos describir la imagen que queremos, y que será transformada al prompt más adecuado por un experto en la materia. Si, has leído bien, un experto en “hablar” con los modelos de IA, en lo que se ha dado en llamar ingeniería de prompts (la figura me parece muy útil, pero elevarlo al rango de ingeniería me parece un tanto pretencioso, la verdad).

Como decía, los servicios como Midjourney ser suman a una frase, muy común en las descripciones de los juegos y que seguro que has leído en más de una ocasión: Easy to play, hard to mastering, algo de lo que podemos tener bastante claro que sus responsables son muy, muy conscientes, e intentan mejorar de manera constante… para desdicha de quienes han encontrado en ello un espacio de desarrollo profesional.

La última novedad al respecto, que ha sido descubierta por el experto en IA LinusEkenstam y que supone un enorme salto en este sentido, es que ahora podemos subir una imagen a Midjourney y el modelo generará varios prompts que permitirían crear dicha imagen. El potencial de esta nueva función es enorme, puesto que nos ofrece la mejor herramienta que ha existido, hasta el momento, para aprender a generar prompts que se ajusten a la lógica empleada por Midjourney para crear las imágenes.

Por otra parte, esto abre las puertas a algo en lo que llevo pensando algún tiempo y que puede ser aún más revolucionario. Seguramente recordarás que una de las principales novedades de GPT-4 es ser multimodal, es decir, que admite la combinación de texto e imágenes en los prompts de entrada. Ahora que Midjourney ya ha mostrado que admite las imágenes como modo de entrada (aunque de momento sea para generar una salida de texto), el potencial de la combinación de imágenes y texto en la entrada, para obtener una salida ya sea de texto o en imagen es espectacular.

No todo es perfecto, eso sí. Los prompts de entrada con imágenes pueden suponer una enorme amenaza para los contenidos protegidos por derechos de autor, algo que ya trae de cabeza a muchos en la actualidad. Quizás sea posible entrenar a los modelos como Midjourney para que reconozcan contenido protegido muy popular (desde Mickey Mouse hasta el logotipo de Coca-Cola) en los prompts de entrada con imágenes, pero esto se complica más si hablamos de contenidos no tan reconocibles.