A Fondo

Ocho cosas que debes saber sobre las GeForce RTX 40 y su arquitectura Ada Lovelace

Publicado

22 septiembre, 2022

por

Las GeForce RTX 40 lo tienen todo para convertirse en las tarjetas gráficas más avanzadas del momento. NVIDIA ha demostrado muchas cosas con la arquitectura Ada Lovelace, aunque a mi juicio hay dos que debemos destacar especialmente. La primera es el valor de la especialización, y la segunda es el peso de la inteligencia artificial aplicada al mundo de los videojuegos.

Como sabrán muchos de nuestros lectores habituales, en la transición que se produjo entre la arquitectura Pascal, utilizada en las GeForce GTX 10, y la arquitectura Turing, empleada en las GeForce RTX 20, tuvo lugar un cambio muy importante a nivel de silicio. Pasamos de una GPU clásica a un núcleo gráfico con dos nuevos tipos de núcleos, los núcleos tensor y los núcleos RT. Los primeros debutaron con la arquitectura Volta, pero esta no tuvo presencia en el mercado de consumo general.

Los núcleos tensor aceleran cargas de trabajo asociadas a inteligencia artificial y aprendizaje profundo, y también facilitan la reducción de ruido, liberando a la GPU de la carga de trabajo que supone utilizar algoritmos y tareas de este tipo. Por su parte, los núcleos RT se ocupan de toda la carga de trabajo que representa la aplicación de trazado de rayos, ya que calculan las intersecciones transversales BVH, las intersecciones rayo-triángulo, las intersecciones delimitadoras de cuadro y también el sistema de colisiones.

Turing fue una apuesta arriesgada, pero acertada. Ampere consagró el valor de esos dos nuevos bloques de núcleos, y del trazado de rayos y la IA aplicados al mundo del gaming, y con Ada Lovelace ha quedado claro que ambos ofrecen un valor increíble, tanto que gracias a ellos ha sido posible dar un salto que habría sido inviable con una GPU tradicional.

Sé que Ada Lovelace y las NVIDIA GeForce RTX 40 han generado un gran interés entre nuestros lectores, pero también soy consciente de que muchos tenéis algunas dudas y que queréis saber más cosas sobre esta nueva generación. Ayer tuve la oportunidad de asistir a varios eventos online de NVIDIA, y he recopilado una gran cantidad de información para contaros ocho grandes claves que no solo os ayudarán resolver esas dudas, sino que también os permitirán conocer a fondo lo nuevo de NVIDIA.

1.-Las GeForce RTX 40 utilizan núcleos RT y núcleos tensor de tercera y cuarta generación

Son dos de las novedades más importantes que traen las GeForce RTX 40. Los núcleos RT de tercera generación se ocupan de toda la carga de trabajo relacionada con el trazado de rayos, y en términos de potencia bruta marcan un salto tan grande que son capaces de alcanzar los 200 TFLOPs con este tipo de cargas. Frente a los núcleos RT de segunda generación la diferencia es tan grande que llegan a doblar la tasa de cálculo de intersecciones rayo-triángulo.

Los núcleos RT presentes en las GeForce RTX 40 no se han limitado a mejorar en potencia bruta, también incorporan otras novedades que suponen una avance importante en términos de optimización, entre los que podemos destacar:

SER (Shader Execution Reordering), que actúa reordenando los hilos de trabajo en bloques o grupos que los motores de sombreado podrán despachar de una manera más eficiente. Gracias a esta tecnología el rendimiento puede mejorar hasta en un 25%.
Displaced Micro-Meshes, que permite utilizar mallas de micro triángulos para mejorar la eficiencia a la hora de trabajar con trazado de rayos y facilita la compresión de geometría especialmente compleja.
Opacity Micro-Mask, una tecnología que reduce la carga de trabajo de los sombreadores al permitir una determinación más precisa de la opacidad de los objetos y la densidad de los mismos, algo que tiene un impacto muy positivo en el rendimiento al aplicar trazado de rayos.

Los núcleos tensor de cuarta generación son capaces de ofrecer una potencia de hasta 1.400 TFLOPs en inteligencia artificial y aprendizaje profundo, pueden trabajar con operaciones de inferencia FP8 y abren las puertas al nuevo DLSS 3, una tecnología de reescalado y reconstrucción de la imagen que representa un avance enorme frente al DLSS 2, aunque sobre este profundizaremos más adelante.

Estos nuevos núcleos también cuentan con un motor Optical Flow Accelerator de nueva generación capaz de alcanzar la friolera de 305 TOPs (305 billones de operaciones por segundo), que es uno de los pilares clave sobre los que se asienta la generación de fotogramas. Sobre esto también profundizaremos en el punto 7, así que seguid leyendo para no perderos todas sus claves.

2.-Ada Lovelace representa un salto generacional enorme

A nivel de arquitectura Ada Lovelace ha marcado un avance muy grande frente a Ampere. El núcleo NVIDIA AD102 está configurado con una cantidad de shaders tan grande que llega casi a doblar al chip NVIDIA GA102, alcanza unas velocidades muy superiores, está fabricado en el nodo de 5 nm de TSMC y prácticamente triplica la cantidad de transistores de aquel.

En la imagen adjunta podemos ver una comparativa muy clara de las diferencias más importantes que hay entre ambos núcleos gráficos, y los números no mienten. Los 18.432 shaders que integra el núcleo gráfico AD102 implican un aumento de potencia enorme, que unido a la mayor frecuencia de trabajo que alcanza Ada Lovelace ha hecho posible alcanzar una potencia de 90 TFLOPs en FP32. A efectos comparativos basta recordar que el núcleo gráfico GA102 llegaba a los 40 TFLOPs en FP32.

Otra novedad importante la tenemos en los codificadores de vídeo, ya que Ada Lovelace viene con una configuración AV1 dual de octava generación, lo que permite doblar el rendimiento al trabajar con herramientas de edición de vídeo apoyadas por inteligencia artificial, y mejora la eficiencia hasta en un 40% al hacer streaming en vivo.

NVIDIA ha mantenido la división en núcleos tensor y RT, sobre los que ya hemos hablado en el punto anterior, y repite el bus de 384 bits con memoria GDDR6X, lo que significa que Ada Lovelace también ofrecerá un enorme ancho de banda (1 TB/s o más, dependiendo de la velocidad de la memoria gráfica integrada).

3.-Las GeForce RTX 40 llevan el trazado de rayos en juegos a otro nivel

Y esta ha sido sin duda una de las cosas que más me ha impresionado. Cyberpunk 2077 es el máximo exponente de lo que podrá dar de sí ese trazado de rayos elevado a otro nivel que hará posible Ada Lovelace. Para entenderlo mejor es necesario tener claro cómo trabaja actualmente el trazado de rayos aplicado a Cyberpunk 2077:

Tenemos iluminación global y difusa generada con trazado de rayos, pero limitada a un rebote.
Los reflejos se generan de manera híbrida, es decir, mediante la técnica de espacio de pantalla y trazado de rayos.
Dichos reflejos también se generan a una resolución inferior a la nativa.
La iluminación por trazado de rayos está físicamente limitada, lo que hace necesario recurrir a la oclusión ambiental para mejorar el resultado final.

Esas cuatro limitaciones son imprescindibles porque permite reducir la cantidad de operaciones de trazado de rayos por píxel. Si queremos superar esas limitaciones es imprescindible aumentar la complejidad del trazado de rayos, y esto tendrá un coste importante a nivel de rendimiento. Para entender mejor esto debemos recordar que el trazado de rayos y su impacto en el rendimiento se determina por la cantidad de rayos por píxel. De media, así es como queda cada modo en Cyberpunk 2077:

8 rayos por píxel en modo ultra.
10 rayos por píxel en modo «psycho».
22 rayos por pixel en el nuevo modo «Overdrive».

Como podemos ver, el nuevo modo «Overdrive» superará en más del doble la cantidad de rayos por píxel del modo «psycho», y esto disparará a 635 las operaciones de trazado de rayos por píxel. A efectos comparativos tenemos Battlefield V, donde la carga de trabajo era de solo 39 operaciones de trazado de rayos por píxel. Impresionante, sin duda, ¿pero qué supondrá esto a nivel visual? Pues es muy sencillo, el modo «Overdrive» aplicado a Cyberpunk 2077 hará que sean posibles cuatro grandes mejoras:

Iluminación realista con NVIDIA RTX Direct Illumination (RTXDI), que hará que cada fuente de luz del juego genere una luz precisa y realista, capaz de afectar de forma directa e indirecta a todos los elementos del juego, y con un color preciso.
Tanto la iluminación como los reflejos tendrán ahora múltiples rebotes, lo que permitirá mejorar la precisión, el realismo y la calidad de ambos efectos.
Los reflejos se renderizan ahora a resolución completa, lo que les dará una mayor nitidez y una calidad superior.
Mejoras en la física de la iluminación, lo que hará que ya no sea necesario recurrir a técnicas como la oclusión ambiental.

4.-NVIDIA ha introducido importantes mejoras en el diseño Founders Edition

A simple vista puede parecernos que NVIDIA no ha introducido cambios ni en el diseño ni en el sistema de refrigeración de las GeForce RTX 40 Founders Edition, pero nada más lejos de la realidad. En primer lugar tenemos un cambio a nivel estructural que parte de un diseño «unibody», lo que ha permitido a los de verde mejorar la solidez de sus nuevas tarjetas gráficas. Esto es muy importante, ya que utilizan sistemas de refrigeración voluminosos.

En segundo lugar, NVIDIA también ha modificado los ventiladores. Estos tienen aletas más largas, lo que mejora el flujo de aire en un 20%. Gracias a esto las temperaturas de trabajo no serán un problema, y podremos disfrutar de un rendimiento óptimo incluso con cargas muy pesadas manteniendo el perfil por defecto de los ventiladores.

Por último las GeForce RTX 40 también vienen con mejoras a nivel de eficiencia en la memoria y en la refrigeración de la misma. La compañía ha utilizado chips de memoria que consumen menos, y también ha mejorado tanto el flujo de aire como el sensor de temperatura de dicho componente. Esto debería traducirse en unos picos máximos de temperatura totalmente seguros.

Todavía no tenemos detalles sobre los picos máximos de temperatura que alcanzarán las GeForce RTX 40, pero viendo el cuidado que ha puesto NVIDIA en la construcción de las Founders Edition y en todos los elementos de refrigeración creo que tenemos motivos para ser optimistas, es decir, para esperar unos valores bastante buenos en relación rendimiento-temperatura.

5.-Mayor eficiencia y mejoras en el sistema de alimentación

Las GeForce RTX 40 son mucho más potentes que las GeForce RTX 30. Gracias al uso del nodo de 5 nm de TSMC y a las mejoras que trae Ada Lovelace a nivel de arquitectura NVIDIA ha podido mantener los consumos en unos niveles bastante razonables. Con esto en mente, y viendo los números de TGP en bruto, podríamos pensar que se han mantenido intactas las claves del sistema de gestión de la alimentación, pero nada más lejos de la realidad.

NVIDIA ha vuelto a utilizar el diseño de PCB corto que vimos en las GeForce RTX 30 y ha apostado por el conector PCIe Gen5, pero el sistema de alimentación ha sido revisado por completo. Para mejorar la eficiencia y facilitar el overclock NVIDIA ha incorporado un sistema de alimentación de 23 fases que trabaja, además, de una manera mucho más estable.

Para entender mejor lo que acabamos de decir solo tenéis que fijaros en la imagen adjunta. La primera gráfica representa un lapso de tiempo del consumo energético de la GeForce RTX 3090, y la segunda representa lo mismo pero en una GeForce RTX 4090. En la primera tenemos oscilaciones tan importantes que los picos máximos llegan a superar incluso a los valores de la GeForce RTX 4090, mientras que en esta última no se producen esas fluctuaciones y los consumos son mucho más estables.

Si os preocupa el tema del conector PCIe Gen5 podéis estar tranquilos, ya que NVIDIA ha confirmado que las GeForce RTX 40 vendrán con el clásico adaptador de conectores de 8 pines que ya vimos en las GeForce RTX 30. No tendréis que cambiar de fuente de alimentación, salvo que la vuestra no sea suficiente por una cuestión de potencia y/o amperaje.

6.-El DLSS 3 es toda una revolución capaz de cuadriplicar el rendimiento

Personalmente creo que esta ha sido la novedad más importante que ha presentado NVIDIA con las GeForce RTX 40, y es que estamos ante un salto enorme frente al DLSS de segunda generación, tanto que podemos decir sin miedo a equivocarnos que el DLSS 3 se sitúa como la mejor técnica de reescalado y reconstrucción de la imagen que existe a día de hoy, y que es el gran «rival a batir».

La tecnología DLSS 3 mantiene la base de la generación anterior, es decir, utiliza inteligencia artificial y recurre a los núcleos tensor. También parte de una resolución inferior a la nativa para reescalar y reconstruir la imagen, y utiliza vectores de movimiento y elementos temporales para mejorar el resultado final. Sin embargo, sobre esa base que ya conocíamos NVIDIA ha introducido un cambio gigantesco, y es que DLSS 3 ya no se limita a crear píxeles, sino que es capaz de generar fotogramas completos. Esto es posible gracias al motor Optical Flow Accelerator y a la tecnología Optical Multi Frame Generation.

Cuando activamos NVIDIA DLSS 3, esta tecnología será capaz de generar dos fotogramas partiendo únicamente de una octava parte del total de píxeles, lo que significa que los siete octavos restantes se generan gracias a esta técnica de reescalado, reconstrucción y generación de imágenes. Podemos verlo perfectamente explicado en la imagen adjunta, el primer fotograma se ha generado partiendo del renderizado tradicional, pero solo con una cuarta parte de los píxeles, mientras que el segundo se ha producido por completo a través del DLSS 3.

Clic para ampliar. Solo el fotograma del centro ha sido renderizado de forma tradicional, los otros dos han sido generados, y a pesar de todo la calidad de imagen es fantástica, como podemos aprecia.

Gracias a este avance es posible multiplicar por cuatro el rendimiento en juegos, y sin que la latencia de renderizado ni la calidad de imagen sea un problema. En este sentido es importante destacar que el Optical Flow Accelerator de nueva generación de Ada Lovelace es clave en este sentido, ya que es el doble de potente que la versión integrada en Ampere, y también es mucho más preciso en todo lo relacionado con el proceso de estimación del movimiento y de píxeles en cada fotograma generado por la GPU.

7.-La generación de fotogramas reduce la dependencia de la CPU

Y de una manera espectacular, tanto que en un juego CPU dependiente como Microsoft Flight Simulator es capaz de incrementar el rendimiento de 65 a 135 FPS. Suena bien, ¿verdad? Pero seguro que estás deseando saber cómo funciona, y no te voy a dejar con la duda, aunque antes quiero explicaros qué entendemos como juego CPU dependiente.

Un juego CPU dependiente es aquél que somete al procesador a una profunda carga de trabajo, incluso aunque no sea capaz de saturar por completo todos sus núcleos e hilos. Esto produce un cuello de botella porque la GPU tiene que estar esperando constantemente a que la CPU complete ciclos de trabajo para poder sacar adelante sus propias tareas. En este tipo de escenarios es normal que se produzca una infrautilización de la GPU y una baja tasa de fotogramas por segundo.

La tecnología DLSS 3 de NVIDIA representa un avance importante en este sentido porque es capaz de generar un fotograma adicional sin tener que recurrir a la CPU. Como ya hemos dicho esta tecnología renderiza un fotograma inicial partiendo de una cuarta parte de los píxeles de la resolución objetivo, y es capaz de producir otro fotograma adicional de forma totalmente independiente, recurriendo al análisis de fotogramas secuenciales, teniendo siempre en cuenta los vectores de movimiento para realizar una predicción de coincidencias a nivel de píxeles lo más precisa posible.

Al no tener que esperar a la CPU la GPU puede trabajar «por su cuenta» y esto permite mejorar notablemente la tasa de fotogramas por segundo, aliviando el cuello de botella. Obviamente no es una solución definitiva al clásico problema de los cuellos de botella a nivel de CPU que tanto venimos viendo en juegos triple A, pero sin duda es un «bálsamo» importante que marcará una gran diferencia.

8.-Podremos seguir utilizando DLSS 2 en juegos compatibles con DLSS 3

Es algo que había generado muchas dudas, pero puedo confirmaros que NVIDIA seguirá dando soporte al DLSS 2, y que no los que tenéis una GeForce RTX 20 o una GeForce RTX 30 no tendréis nada de lo que preocuparos. Todos los juegos que lleguen al mercado promocionados como compatibles con DLSS 3 también se podrán utilizar sin problemas con la tecnología DLSS 2.

Con todo, es importante dejar claro que la generación de fotogramas es una característica exclusiva del DLSS 3, lo que significa que no podremos disfrutarla con el DLSS de segunda generación. NVIDIA ha explicado que esto se debe a la mayor potencia del Optical Flow Accelerator presente en Ada Lovelace, y también a su mayor precisión a la hora de realizar todas las predicciones necesarias para generar un fotograma adicional sin tener que recurrir ni a la CPU, ni a una determinada cantidad de píxeles renderizados de forma tradicional.

Sí, las GeForce RTX 20 y GeForce RTX 30 cuentan con un Optical Flow Accelerator, pero este no tiene la potencia ni la precisión necesaria para alcanzar un nivel óptimo con la tecnología de generación de fotogramas, por eso NVIDIA ha decidido no darle soporte. A nivel personal creo que ha sido lo mejor, ya que forzar el soporte en un hardware que no está a la altura al final acaba siendo contraproducente.

Categorías relacionadas:Ada Lovelace destacado GeForce RTX 40 NVIDIA Tarjetas gráficas Tecnología

A continuación

5 vías para resucitar videojuegos clásicos con soporte multiplataforma

No te pierdas

NVIDIA AD102 frente a NVIDIA GA102, un vistazo a la GPU más potente que existe

Isidro Ros

Editor de la publicación on-line líder en audiencia dentro de la información tecnológica para profesionales. Al día de todas las tecnologías que pueden marcar tendencia en la industria.