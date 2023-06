Meta no ha dejado de sacar pecho, durante los últimos meses, en lo referido a inteligencia artificial, y Voiccebox es solo el último de una lista cada vez más larga de muestras de ello. Desinflado el hype del Metaverso (hype interno, dentro de la compañía, pues de puertas para fuera las expectativas nunca llegaron a ser demasiado altas), parece que la compañía ha decidido centrar esfuerzos en otras áreas con mayor interés y potencial de crecimiento, algo que sin duda agradecerán sus cuentas y sus inversores.

Como decía, Meta muestra bastante interés por la inteligencia artificial desde hace bastante tiempo, pero no ha sido hasta el boom de esta tecnología, especialmente gracias a los modelos generativos, que han decidido empezar a publicar papers y muestras de proyectos interesantes, permitiendo además en algunos casos la descarga de los modelos. Algo que no puedo dejar de relacionar con las declaraciones de Yann LeCun a finales de enero, en las que afirmaba que ChatGPT no era tan innovador. Una afirmación que, claro, nos hizo preguntarnos en qué estaban trabajando ellos.

Desde entonces, hemos visto la presentación y liberación de LlaMa (Large Language Model Meta AI) y la herramienta de segmentación de elementos de imágenes SAM, entre otros, además de aproximaciones más comunes en la actualidad a la inteligencia artificial, como el chatbot que llegará próximamente a Instagram. Así, sería injusto reconocer que Meta está sabiendo posicionarse como una tecnológica a tener muy en cuenta cuando hablamos de inteligencia artificial.

El más reciente ejemplo de ello lo tenemos en Voicebox, un modelo de IA que convierte el texto en voz. Este tipo de herramientas existen desde hace mucho tiempo, pero hasta ahora la mayoría de las soluciones de este tipo se basan en emplear un monstruoso volumen de muestras, que son empleadas para componer cada conversión de texto a voz. Esto proporciona unos resultados razonables, pero es común encontrarse con entonaciones raras y efectos similares.

Voicebox ha sido entrenado con más de 50,000 horas de audio sin filtrar. Según podemos leer en su página web, Meta usó voz grabada y transcripciones de un montón de audiolibros de dominio público leídos en inglés, francés, español, alemán, polaco y portugués. Gracias a este entrenamiento, este modelo es capaz de generar narraciones verdaderamente realistas, así como de tomar una grabación ya existente con ruido de fondo, y devolver una versión limpia de la misma.

El de la síntesis de voz es un campo muy activo en el mundo de la inteligencia artificial. Voicebox es solo el último ejemplo, pero recientemente también hemos sabido de VALL-E, un modelo creado por Microsoft y que es capaz de imitar voces, con las posibilidades y también riesgos que esto plantea, y de los planes de Apple para generar audiolibros a partir de originales de texto.