Noticias
TurboQuant, la respuesta de Google a un gran problema de la IA
TurboQuant es la nueva propuesta de Google para abordar uno de los problemas más importantes de la inteligencia artificial actual: el enorme consumo de memoria que requieren los modelos de lenguaje cuando trabajan con grandes cantidades de texto. A medida que estos sistemas manejan conversaciones más largas, documentos extensos o tareas complejas, la cantidad de memoria necesaria para mantener el contexto crece rápidamente, lo que eleva el coste de ejecución y obliga a utilizar hardware cada vez más potente.
Con ese escenario en mente, Google ha presentado TurboQuant, una tecnología de compresión diseñada para reducir de forma drástica la memoria que utilizan los modelos de IA durante la inferencia. Según la compañía, este sistema permite recortar al menos seis veces el tamaño de la memoria temporal utilizada por los modelos sin necesidad de reentrenarlos y sin provocar pérdidas apreciables de precisión en los resultados.
El problema que intenta resolver TurboQuant está relacionado con la llamada KV cache, una memoria interna que los modelos de lenguaje utilizan para recordar las claves y valores de atención generados a medida que procesan un texto. Gracias a esta memoria de trabajo, el modelo no necesita recalcular todo desde cero cada vez que genera una nueva palabra. Sin embargo, a medida que el contexto crece, esa “memoria de conversación” puede llegar a ocupar una parte muy importante de la GPU, convirtiéndose en uno de los principales cuellos de botella.
La propuesta de Google consiste en aplicar una cuantización extremadamente agresiva sobre esos datos. TurboQuant permite comprimir la KV cache hasta niveles de solo 3 bits por valor, muy por debajo de los 32 bits que suelen utilizar las representaciones tradicionales. Este proceso reduce de forma significativa el espacio necesario para almacenar esa información y, según los resultados publicados por la compañía, puede incluso acelerar el cálculo de atención hasta ocho veces en GPU Nvidia H100 frente a claves no cuantizadas.
Para lograrlo, TurboQuant combina dos técnicas principales. La primera, denominada PolarQuant, reorganiza los vectores que componen la memoria del modelo y los representa mediante coordenadas polares, lo que facilita su compresión. La segunda es QJL, un sistema de corrección de errores de un solo bit que compensa las pequeñas desviaciones introducidas por la cuantización y evita que el modelo pierda precisión al calcular qué partes del contexto son más relevantes.
Google ha probado este sistema en diferentes benchmarks diseñados para evaluar modelos con contextos largos, como LongBench, Needle In A Haystack, ZeroSCROLLS, RULER o L-Eval, utilizando modelos abiertos como Gemma y Mistral. Según la compañía, TurboQuant mantuvo resultados prácticamente idénticos a los modelos originales mientras reducía significativamente el uso de memoria.
Más allá de las cifras concretas, el impacto potencial de TurboQuant tiene una lectura clara para la industria. Si los modelos de inteligencia artificial pueden funcionar con mucha menos memoria, el mismo hardware podrá ejecutar más cargas de trabajo o manejar modelos más grandes. No significa que cualquier ordenador doméstico vaya a poder ejecutar sistemas gigantescos de un día para otro, pero sí apunta a un futuro en el que desplegar IA avanzada podría requerir menos recursos de los que hoy parecen imprescindibles.


