Conecta con nosotros

A Fondo

Google Gemini ya está aquí

Publicado

el

Google Gemini ya está aquí

Ayer mismo te contábamos que la llegada de Gemini, el nuevo modelo de IA de Google, apuntaba a ser inminente, y que era probable que se produjera esta misma semana. Y no nos equivocábamos,  en todo caso se podría decir que fuimos excesivamente conservadores a la hora de determinar el tiempo que faltaba hasta que esto ocurriera, pues lo que apuntaba a ser un par de días, terminó por ser un par de horas. Y, además, con un desembarco también más rápido de lo que esperábamos.

Antes de entrar a hablar en profundidad del modelo, creo que es interesante dedicar un momento a este punto. Como probablemente recordarás, hace menos de una semana se filtró que Google había decidido posponer el lanzamiento de Gemini, a consecuencia de algunos problemas con sus salidas en idiomas distintos al inglés. Esto, claro, nos explica que su debut se vaya a producir en la lengua de Shakespeare, con otros idiomas que se irán sumando más adelante. Personalmente, esta decisión me parece la más acertada.

Pero veamos, ¿qué es Gemini? Un primer impulso nos llama a calificarlo como LLM, y esto explica que las comparaciones que estamos viendo, incluso algunas de la propia Google, lo ponen frente a frente con GPT-4. Sin embargo, esto nos hace perdernos una parte importante de la foto, que se entiende mejor si lo comparamos con otros modelos también multimodales. Y es que estos últimos son, por así decirlo, LLM a los que se han añadido, posteriormente, otros modelos capaces de analizar imágenes y vídeo, sonido, etc. Sin embargo, Gemini ha sido diseñado, desde sus inicios, para soportar distintos tipos de formatos de entrada y salida, lo que se traduce en una integración nativa, y por lo tanto completa, de dichos tipos de medios.

Google Gemini ya está aquí

Aunque estamos hablando de Gemini, de manera genérica, hay dos puntos importantes a precisar. El primero es que Google se refiere, específicamente, a Gemini 1.0, lo que hace que no nos quede la menor duda de que hablamos de un modelo que veremos evolucionar. Y esto puede parecer una tontería, pero no lo es en absoluto, pues nos adelanta una más que probable competición, de lo más encarnizada (y por lo tanto interesante) entre Gemini y GPT.

El otro aspecto clave es que, en realidad, son tres las implementaciones del modelo, y así es cómo las define Google:

  • Gemini Ultra – nuestro modelo más potente y de mayor tamaño, para tareas de gran complejidad.
  • Gemini Pro – nuestro mejor modelo para escalar en una amplia gama de tareas.
  • Gemini Nano – nuestro modelo más eficiente para ejecutar tareas directamente en un dispositivo.

En una primera lectura, son muchas las personas que están estableciendo el paralelismo de que Ultra sería el equivalente/rival de GPT-4, mientras que Pro habría llegado para competir con GPT-3.5. Sin embargo, muchas de estas comparaciones no están teniendo en cuenta lo que mencionaba anteriormente, es decir, el soporte multimodal nativo, lo que apunta a traducirse en respuestas más coherentes, y más rápidas, a los prompts de los usuarios.

Obviamente, Ultra apunta muy, muy alto. Según ha indicado Google «Con una puntuación del 90,0%, Gemini Ultra es el primer modelo que supera a los expertos humanos en MMLU (comprensión masiva del lenguaje multitarea), que utiliza una combinación de 57 materias, como matemáticas, física, historia, derecho, medicina y ética, con las que se pone a prueba tanto el conocimiento del mundo como la capacidad de resolución de problemas«.

Eso sí, esta es la modalidad de Gemini que más tiempo tardará en debutar en el mercado, y quizá también sea aquella en la que veamos debutar una modalidad de pago de Bard, un modelo similar al adoptado por OpenAI con ChatGPT+. Que sea de pago o no es algo que todavía no está claro, pero lo que sí que ha adelantado la compañía es que una de las maneras de emplear Gemini Ultra será a través de Bard Advanced, «una nueva experiencia de inteligencia artificial de vanguardia en Bard que le brinda acceso a nuestros mejores modelos y capacidades«,

Google Gemini ya está aquí

Gemini Pro, por su parte, ya ha empezado a implantarse en Bard, y lo hará próximamente en más productos y servicios de Google. Eso sí, como indicaba anteriormente de momento lo hará solo en inglés, y con un alcance bastante amplio pero no global, que la compañía cifra en más de 170 países. Así que sí, parece bastante probable que, al igual que ocurrió en mayo, en el espacio común europeo todavía tengamos que esperar hasta poder empezar a disfrutar de sus virtudes dentro del espacio común europeo.

En cuanto a qué otros productos y servicios recibirán Gemini Pro, Google menciona específicamente el buscador, Ads, Chrome y Duet AI, entre otros, si bien todavía no ha aclarado qué es lo que aportará en cada uno de ellos. No obstante, podemos esperar que sea una contribución bastante significativa, pues sin duda éste es el momento y el modelo que la compañía estaba esperando para poder alcanzar velocidad de crucero en lo referido a la implementación de la IA.

Google Gemini ya está aquí

Ahora bien, personalmente el anuncio que me ha parecido más interesante es, sin duda, el de Gemini Nano, el más pequeño de ellos, como su propio nombre indica, pero que como podemos ver en su descripción ha sido optimizado para ser empleado directamente en dispositivo, es decir, que aquellos dispositivos en los que se implemente este modelo serán capaces de llevar a cabo más y más tareas basadas en inteligencia artificial de manera autónoma, sin necesidad de depender de su conectividad y de una infraestructura de servidores que presten dicho servicio.

¿Y dónde debutará Gemini Nano? Estoy seguro de que ya lo has imaginado, así que te lo confirmo, este modelo aterrizará, próximamente, en los Google Pixel 8 Pro, el smartphone tope de gama de la compañía, en el que ya encontramos un uso avanzado de la inteligencia artificial, y que con este salto cualitativo puede evolucionar sustancialmente en los próximos meses.

Esto es muy importante porque, tras un boom de la IA basada en servicios ejecutados de manera remota, la inteligencia artificial en el cliente le devuelve un mayor control al usuario, además de eliminar la necesidad de la conexión a Internet para hacer uso de dichas funciones. El despliegue de funciones de IA de ejecución local no será algo rápido, eso sí, pero sí que marca la dirección en una clara tendencia, que sin duda se generalizará a corto y medio plazo.

 

Más información

Si me dieran una cana por cada contenido que he escrito relacionado con la tecnología... pues sí, tendría las canas que tengo. Por lo demás, música, fotografía, café, un eReader a reventar y una isla desierta. ¿Te vienes?

Lo más leído