Conecta con nosotros

Noticias

Meta suma importantes mejoras a SeamlessM4T

Publicado

el

Meta suma importantes mejoras a SeamlessM4T

Han pasado algo más de tres meses desde que Meta presentara SeamlessM4T, un modelo multimodal dedicado a la traducción que, por lo que pudimos ver en su momento y algunos testimonios que han trascendido desde entonces, parece ser un excelente trabajo por parte de la compañía. Ahora mismo no recuerdo el tiempo que Yann LeCun lleva trabajando para Meta, pero desde que a principios de año se pronunciara sobre ChatGPT, parece haber pisado el acelerador, logrando que Meta escale posiciones en el pujante ecosistema de la inteligencia artificial.

Así, a lo largo de este año hemos visto como la compañía anunciaba modelos de IA con funciones de lo más diversas. Desde su LLM Llama hasta el modelo que segrega los diversos elementos de una imagen o, claro, los chatbots con los que pretende atraer a las audiencias más jóvenes a sus servicios. De todo hay y, aunque creo que algunas ideas son bastante más interesantes que otras, parece que en todos los casos el nivel técnico alcanzado es merecidamente destacable.

SeamlessM4T, como ya te contamos en su momento, es un modelo de IA multimodal capaz de realizar traducciones entre 100 idiomas. Como ya sabrás, al hablar de un modelo multimodal hacemos alusión a que permite tanto entrada como salida de datos en diversos formatos, en este caso tanto por escrito como en formato de audio. Recordemos cuáles eran sus capacidades:

  • Reconocimiento automático de voz para casi 100 idiomas
  • Traducción de voz a texto para casi 100 idiomas de entrada y salida
  • Traducción de voz a voz, compatible con casi 100 idiomas de entrada y 35 (+ inglés) idiomas de salida
  • Traducción de texto a texto para casi 100 idiomas
  • Traducción de texto a voz, compatible con casi 100 idiomas de entrada y 35 (+ inglés) idiomas de salida

Meta suma importantes mejoras a SeamlessM4T

Pues bien, si lo que ofrecía hasta ahora ya era interesante, según podemos leer en Engadget SeamlessM4T va a sumar dos funciones que lo hacen mucho más práctico e interesante. Son las siguientes:

  • SeamlessExpression: como seguramente ya habrás deducido por su nombre, esta función suma rasgos de expresión a la salida, por voz, de SeamlessM4T. Así, ahora el modelo además de traducir el mensaje, la locución de salida también tendrá en cuenta el volumen de voz, el tono emocional, la velocidad de la locución de origen y las pausas, entre otros aspectos. Esto, sin duda, reducirá sustancialmente la percepción de voz robótica que ocasionan este tipo de salidas, generalmente un tanto impersonales.
  • SeamlessStreaming: al estilo de un servicio de traducción simultánea, el modelo no esperará a que haya terminado la locución de entrada para iniciar la de salida, sino que irá realizándola «en caliente», con un pequeño lag de tan solo dos o tres segundos. Esta fórmula es la que encontramos, de manera habitual, en documentales de testimonios en primera persona en los que podemos escuchar la voz original y, sobre la misma y con alrededor de un segundo de desfase, la locución ya traducida.

Todavía no está claro cuándo llegarán estas funciones a los usuarios de SeamlessM4T, pero sin duda hablamos de una tecnología de lo más prometedora, que puede facilitar sustancialmente la comunicación y que, por lo tanto, nos acerca un paso más al largamente esperado babelfish de la Guía del Autoestopista Galáctico.

Si me dieran una cana por cada contenido que he escrito relacionado con la tecnología... pues sí, tendría las canas que tengo. Por lo demás, música, fotografía, café, un eReader a reventar y una isla desierta. ¿Te vienes?

Lo más leído