A Fondo

OpenAI anuncia el lanzamiento de DALL-E 3

Publicado

20 septiembre, 2023

por

OpenAI anuncia el lanzamiento de DALL-E 3

Hace ya algún tiempo supimos que DALL-E 3, la próxima generación de la inteligencia artificial generativa de imágenes de OpenAI, ya se encontraba en pruebas. Sin embargo, pese a que esperábamos que su debut se produjera antes de que finalice 2023, hasta ahora no teníamos constancia alguna de ello. Y, dado que los modelos generativos se encuentran en un hiato debido a los movimientos regulatorios que se están produciendo en todo el mundo, tampoco podíamos darlo como algo seguro.

Sin embargo, parece que los creadores de ChatGPT han decidido seguir adelante, de modo que hace solo unos minutos, en un mensaje en su cuenta de X, OpenAI ha anunciado el lanzamiento de DALL-E 3, una nueva versión que, en base a lo que han mostrado hasta el momento, parece suponer una importante mejora con respecto a DALL-E 2, la versión disponible en la actualidad y que, como seguramente recordarás, ya probamos hace ya cerca de un año, y que nos dejó un sabor de boca un tanto agridulce.

Recordemos que, en la actualidad, la tecnología de DALL-E 2 está disponible, de manera gratuita, para los usuarios de Microsoft Bing, así como para los de Microsoft Designer. Y algo interesante al ver el modo en el que DALL-E 3 permite ir trabajando a partir de una idea original con sucesivos prompts, es que OpenAI parece haber tomado buena nota del modo en el que la generación de imágenes ha sido implementada en el chatbot de Microsoft.

Our new text-to-image model, DALL·E 3, can translate nuanced requests into extremely detailed and accurate images.

Coming soon to ChatGPT Plus & Enterprise, which can help you craft amazing prompts to bring your ideas to life:https://t.co/jDXHGNmarT pic.twitter.com/aRWH5giBPL

— OpenAI (@OpenAI) September 20, 2023

OpenAI pone gran parte del foco en una mejora de DALL-E 3 con respecto a versiones anteriores (en algo que también es achacable a otros modelos generadores de imágenes). Si has utilizado algún servicio de este tipo, seguramente habrás visto que el modelo ignoraba alguna de tus indicaciones del prompt, algo que ocurre de manera más común a medida que trabajamos con peticiones más complicadas. Tan importante es este punto que, al acceder a la página web sobre este nuevo modelo, esto es lo primero que podemos leer en la misma:

«DALL·E 3 comprende muchos más matices y detalles que nuestros sistemas anteriores, lo que le permite traducir fácilmente sus ideas en imágenes excepcionalmente precisas«.

Y, por si fuera poco, añaden:

«Los sistemas modernos de conversión de texto a imagen tienden a ignorar palabras o descripciones, lo que obliga a los usuarios a aprender ingeniería de prompts. DALL·E 3 representa un salto adelante en nuestra capacidad de generar imágenes que se adhieran exactamente al texto que proporcionas.»

Si realmente han logrado esto, ya sea con un primer prompt o con sucesivas indicaciones con respecto a la imagen original, sin duda estamos hablando de un avance realmente significativo y que, por lo tanto, mejorará sustancialmente la experiencia de trabajo con este tipo de herramientas.

De hecho, y a este respecto, DALL-E 3 parece la primera respuesta de OpenAI a la, en mi opinión efímera, figura de la ingeniería de prompts (que aprovecho para redundar en que el uso del término «ingeniería» me parece un exceso en toda regla). Es evidente que las empresas responsables de este tipo de servicios tienen, como objetivo, que obtener los resultados deseados sea, para el usuario, lo más sencillo posible. Por lo tanto, esta nueva generación de DALL-E podría marcar el principio del fin de esa nueva «profesión».

La imagen que puedes ver bajo el párrafo inferior te adelanta otra de las grandes novedades de DALL-E 3 frente a su predecesor, y es que ya es capaz de generar texto legible en las imágenes, y no solo a la hora de reproducir textos que le indiquemos en el prompt, sino también de generar texto propio a partir de lo que indiquemos en la entrada, algo para lo que podemos colegir que emplea una versión adaptada de GPT-4 que se integrará en el workflow de DALL-E.

Según las primeras referencias al respecto, la generación de texto, al menos de momento, no es perfecta, que es lo mismo que ya pudimos ver hace unas semanas en Ideogram. Sin embargo, esto supone menos problema en este caso, pues como ya comentaba anteriormente, el resultado del primer prompt se puede depurar con iteraciones sobre el mismo. Así, DALL-E 3 apunta a ser el modelo que, finalmente, proporcione una herramienta de creación de imágenes con texto que ofrezca la calidad deseada en ambos tipos de contenido.

Siempre que se habla de modelos generativos, es importante tener en cuenta todo lo relacionado con la seguridad, el respeto de la propiedad intelectual y, algo especialmente en boga estos últimos tiempos, la generación de imágenes falsas sobre personas reales. OpenAI ha tenido en cuenta estos puntos, como podemos ver en la página web del nuevo modelo, con un conjunto de medidas destinadas a mitigar riesgos y ofrecer soluciones.

En primer lugar, y en la línea de las medidas ya adoptadas en versiones anteriores, OpenAI limita la capacidad de DALL·E 3 de generar contenido violento, para adultos y de odio, a lo que suma mitigaciones para rechazar solicitudes que soliciten imágenes de figuras públicas por su nombre, además de haber mejorado su capacidad de detección de contenido que puede ser empleado para generar desinformación, manipular la opinión pública, etcétera.

Adicionalmente, esta nueva generación del modelo ha sido diseñada para rechazar solicitudes que soliciten una imagen con el estilo de un artista vivo, en una clara respuesta a las múltiples críticas que han recibido los modelos generativos por imitar estilos, voces, etcétera. Adicionalmente, también se ha añadido un espacio en el que los creadores podrán indicarle a OpenAI que quieren que sus imágenes sean excluidas del entrenamiento de futuros modelos de generación de imágenes.

En cuanto a su debut, esto es lo que podemos leer en la web del servicio:

«DALL·E 3 estará disponible para los clientes de ChatGPT Plus y Enterprise a principios de octubre. Al igual que con DALL·E 2, las imágenes que cree con DALL·E 3 son suyas para usar y no necesita nuestro permiso para reimprimirlas, venderlas o comercializarlas.»

Resulta interesante que no se mencione el acceso a DALL-E 3 a través de la API, si bien es cierto que, en la comercialización de la misma, no se hace alusión a la versión específica del modelo a la que da acceso. No obstante, aún tendremos que esperar un poco hasta comprobar si el acceso inicial se extiende también a quienes emplean la API para hacer uso de los servicios de OpenAI.

Y ahora, la pregunta que llevo haciéndome desde que se ha producido el anuncio del lanzamiento de DALL-E 3, ¿estará relacionado de algún modo, o tendrá alguna presencia, en el evento de Microsoft de mañana jueves? Recordemos que cuando se produjo el anuncio de GPT-4, Microsoft confirmó de inmediato que el nuevo modelo ya estaba presente en Bing. Es cierto, sí, que la generación de imágenes tiene un alcance más limitado que la de texto y que los chatbots, pero aún así puede llegar a ser un servicio de un enorme alcance y, dada la enorme participación de Microsoft en OpenAI, tiene bastante sentido pensar que quieran sumar las tecnologías de ésta a sus productos y servicios.

Relacionados:ChatGPT DALL-E 3 destacado Inteligencia artificial OpenAI

A continuación

Amazon Devices 2023 presenta nuevos dispositivos y mejoras en Alexa

No te pierdas

Intel Innovation 2023: IA y el impulso de la Siliconomía

David Salces

Si me dieran una cana por cada contenido que he escrito relacionado con la tecnología... pues sí, tendría las canas que tengo. Por lo demás, música, fotografía, café, un eReader a reventar y una isla desierta. ¿Te vienes?