La inferencia FP4 de NVIDIA multiplica por 50 su eficiencia

La tecnología FP4 de NVIDIA consigue una eficiencia energética entre 25 y 50 veces superior manteniendo una precisión casi idéntica a la de los formatos de mayor precisión, lo que transforma radicalmente la economía de la implantación de la IA. El formato NVFP4 de la arquitectura Blackwell proporciona hasta 4 veces más rendimiento que la inferencia FP8 a través de un sofisticado escalado de doble nivel y núcleos sensores de quinta generación. Los principales proveedores de servicios en la nube y empresas de IA están adoptando rápidamente FP4 para cargas de trabajo de producción, con DeepSeek-R1 alcanzando más de 250 tokens por segundo por usuario en una sola GPU. Este avance permite servir modelos de lenguaje masivos como Llama 3.1 405B con una reducción de memoria de 3,5 veces en comparación con FP16, lo que hace que las capacidades avanzadas de IA sean accesibles a una escala y eficiencia sin precedentes.

La arquitectura de la inferencia de precisión ultrabaja

NVIDIA NVFP4 representa una sofisticada evolución de los formatos numéricos, ya que utiliza una estructura E2M1 (1 bit de signo, dos bits de exponente, un bit de mantisa) mejorada con escalado de doble nivel. El primer nivel aplica factores de escalado E4M3 FP8 a microbloques de 16 valores, mientras que un segundo escalado FP32 por tensor proporciona un ajuste de rango global. Con este método se consigue un error de cuantificación un 88% menor que con métodos de escalado de potencia de dos más sencillos, como MXFP4.

La GPU Blackwell B200 implementa esto a través de 208.000 millones de transistores en un diseño de doble chip, conectados a través de una interfaz NV-HBI de 10 TB/s que permite un funcionamiento transparente para el software. Los núcleos sensores de quinta generación proporcionan soporte nativo para NVFP4 con escalado acelerado por hardware, lo que permite alcanzar 20 PetaFLOPS de rendimiento FP4. La arquitectura incluye memoria tensorial dedicada (TMEM) cerca de las unidades de cálculo, lo que reduce la energía de movimiento de datos y permite un alto rendimiento sostenido.

Las implementaciones de consumo llegan a través de la serie GeForce RTX 50, que lleva las funciones FP4 a los sistemas de sobremesa con hasta 4000 TOPS de IA. Estas GPU permiten generar imágenes FLUX locales con una velocidad 3,9 veces superior a la de FP8, lo que demuestra la viabilidad de FP4 más allá de las implantaciones en centros de datos. La próxima Blackwell Ultra (B300/GB300) amplía aún más los límites con 288 GB de memoria HBM3E y una mejora del rendimiento de 1,5 veces, lo que permite alcanzar 1,1 ExaFLOPS por sistema GB300 NVL72.

Las métricas de rendimiento reconfiguran la economía de la inferencia.

Los datos de pruebas comparativas revelan el impacto transformador de FP4 en el rendimiento de la inferencia de IA. DeepSeek-R1 671B logra una mejora del rendimiento de más del triple en FP4 B200 en comparación con FP8 H200, con sistemas DGX B200 individuales que proporcionan más de 30.000 tokens por segundo. Y lo que es más importante, la degradación de la precisión sigue siendo mínima: la puntuación MMLU de DeepSeek-R1 cae sólo un 0,1% (90,8% a 90,7%) cuando se cuantifica de FP8 a FP4.

Esta tecnología permite aumentar drásticamente la eficiencia de la memoria. Llama 3.1 405B requiere 140 GB en FP32 pero sólo 17,5 GB en FP4, una reducción de 8 veces que permite servir modelos masivos en configuraciones de GPU más pequeñas. La generación de imágenes FLUX presenta ventajas similares, ya que el uso de 51,4 GB de memoria FP16 se reduce a 9,9 GB en el modo FP4 con poca VRAM, al tiempo que se mantienen las métricas de calidad visual.

Los resultados de MLPerf v5.0 validan la viabilidad de la producción: el rendimiento medio de Llama 2 70B se duplica con respecto al año anterior y las mejores puntuaciones mejoran 3,3 veces. El aumento de la eficiencia energética es igualmente impresionante: los 10 julios por token de H100 se reducen a 0,4 julios en B200 y a 0,2 julios en B300, lo que representa una mejora de hasta 50 veces. Estas métricas se traducen directamente en un ahorro de costes operativos, ya que el sector experimentará una reducción aproximada del 90% en los costes de inferencia de la GPU hasta 2024-2025.

Las grandes empresas tecnológicas implantan la FP4 a gran escala.

Los proveedores de cloud computing lideran la adopción de FP4 con implantaciones de producción en las principales plataformas. Lambda Labs ofrece clusters HGX B200 de NVIDIA habilitados para FP4 como clusters 1-Click, mientras que CoreWeave alcanza 800 tokens por segundo en modelos Llama 3.1 405B utilizando GPU GB200. La tecnología se extiende más allá del ecosistema de NVIDIA: Meta, OpenAI y Microsoft utilizan AMD Instinct MI300X para la inferencia de producción y está prevista la adopción de MI350 con soporte nativo de FP4.

Las aplicaciones del mundo real demuestran la versatilidad de FP4 en distintos ámbitos. Las empresas de servicios financieros, como JPMorgan Chase, exploran FP4 para la evaluación de riesgos y el análisis de datos alternativos, mientras que las organizaciones sanitarias aprovechan la tecnología para aplicaciones de IA de vanguardia, logrando un aumento de la velocidad de inferencia del 30% con una reducción de memoria del 50%. Las implantaciones en el sector manufacturero permiten tomar decisiones en tiempo real en dispositivos con limitaciones computacionales, ampliando el alcance de la IA a entornos antes inviables.

El ecosistema de software madura rápidamente para apoyar la adopción. TensorRT Model Optimizer proporciona flujos de trabajo de cuantificación FP4 completos, mientras que marcos como vLLM añaden compatibilidad temprana con NVFP4. Hugging Face alberga repositorios crecientes de puntos de control de modelos FP4 precuantizados, incluidas las variantes DeepSeek-R1, Llama 3.1 y FLUX, lo que acelera los plazos de implantación para las organizaciones.

La transformación de las infraestructuras permite una precisión ultrabaja.

La implantación de FP4 a gran escala exige cambios fundamentales en la infraestructura, especialmente en los sistemas de alimentación y refrigeración. El GB200 NVL72 de NVIDIA requiere 120 kW por rack que aloje 72 GPU, lo que supera la capacidad de más del 95% de los centros de datos existentes. A pesar de la mayor potencia del rack, la eficiencia del sistema mejora drásticamente: un solo sistema NVL72 sustituye a nueve sistemas HGX H100 y consume un 83% menos de energía para un cálculo equivalente.

La refrigeración líquida es obligatoria en las implantaciones Blackwell debido al TDP de 1.000 W por GPU. Los sistemas de refrigeración directa al chip con placas frías en todos los componentes generadores de calor permiten el funcionamiento con temperaturas de refrigerante de 45 °C, lo que permite utilizar torres de refrigeración en lugar de enfriadores de alto consumo energético. La solución DLC-2 de Supermicro admite hasta 96 GPU B200 por bastidor con una capacidad de refrigeración de 250 kW, estableciendo nuevos estándares para la infraestructura de IA de alta densidad.

Los requisitos de software incluyen controladores CUDA actualizados, TensorRT-LLM con soporte nativo FP4 y herramientas de cuantización especializadas. La cuantificación posterior al entrenamiento a través del optimizador de modelos TensorRT permite una implantación rápida, mientras que el entrenamiento con cuantificación proporciona una conservación óptima de la precisión. El método SVDQuant alcanza una precisión de nivel QAT sin entrenamiento, lo que ofrece una flexibilidad de despliegue convincente para organizaciones con recursos informáticos limitados.

La cuantización avanzada preserva la inteligencia del modelo.

Las modernas técnicas de cuantificación garantizan que la implementación de FP4 mantenga la precisión con calidad de producción a través de sofisticados enfoques. El escalado de doble nivel de NVIDIA se adapta automáticamente a las distribuciones de valores tensoriales, mientras que el motor Transformer analiza más de 1000 operaciones para optimizar los factores de escala de forma dinámica. Este co-diseño de hardware y software permite a DeepSeek-R1 alcanzar una precisión del 98,1% en FP4, superando su línea de base FP8 en benchmarks específicos.

SmoothQuant y AWQ (Activation-aware Weight Quantization) representan los métodos de postentrenamiento más avanzados, lo que permite que modelos como Falcon 180B quepan en una sola GPU. Para preservar al máximo la precisión, el entrenamiento basado en la cuantificación simula operaciones FP4 durante el ajuste fino, lo que permite a las redes adaptar las distribuciones de pesos para una implementación de baja precisión. Los modelos Nemotron 4 de NVIDIA demuestran cuantificación FP4 sin pérdidas a través de QAT, igualando o superando el rendimiento de referencia de BF16.

El panorama de la cuantización sigue evolucionando con técnicas que abordan retos específicos. Los mecanismos de gestión de valores atípicos evitan el colapso de la activación en capas sensibles, mientras que las estrategias de precisión mixta mantienen una mayor precisión en operaciones críticas. Estos avances hacen que FP4 sea viable en diversas arquitecturas de modelos, desde transformadores densos hasta diseños de mezcla de expertos.

Hacia la adopción generalizada de la precisión ultrabaja

La trayectoria de adopción de la FP4 parece convincente a juzgar por el impulso actual y la visibilidad de la hoja de ruta. La generación Rubin de NVIDIA apunta a 50 PFLOPs de cálculo FP4 denso, triplicando las capacidades actuales, mientras que la serie MI400 de AMD promete multiplicar por 10 el rendimiento de los modelos de mezcla de expertos. La disponibilidad de hardware sigue siendo la principal limitación, ya que, según los informes, toda la producción de 2025 B200/B300 se ha vendido a los principales proveedores de cloud computing.

La dinámica de costes favorece la adopción continuada. Las organizaciones informan de hasta un 40% más de tokens por dólar con FP4 en comparación con las soluciones de la competencia, mientras que las ganancias de eficiencia energética responden a las crecientes preocupaciones de sostenibilidad. El efecto democratizador resulta significativo: las capacidades que antes requerían clusters masivos de GPU se vuelven accesibles para las organizaciones más pequeñas a través de mejoras en la memoria y la eficiencia computacional.

La evolución de la infraestructura se acelerará a medida que la refrigeración líquida y el suministro de energía de alta densidad se conviertan en norma para las implantaciones de IA. Proliferarán los centros de datos diseñados para bastidores de 50-120 kW, respaldados por tecnologías de refrigeración y sistemas de gestión de la energía mejorados. La madurez del software sigue avanzando con una integración fluida de marcos, canalizaciones de cuantificación automatizadas y una mayor disponibilidad de modelos preentrenados, lo que reduce las barreras para la adopción de FP4 en todos los sectores.

Referencias

  1. Desarrollador de NVIDIA. "Presentamos NVFP4 para una inferencia de baja precisión eficiente y precisa". Blog técnico de NVIDIA. Consultado el 5 de agosto de 2025. https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/.

  2. Wccftech. "NVIDIA profundiza en la infraestructura Blackwell: NV-HBI Used To Fuse Two AI GPUs Together, 5th Gen Tensor Cores, 5th Gen NVLINK & Spectrum-X Detailed". Consultado el 5 de agosto de 2025. https://wccftech.com/nvidia-blackwell-ai-deep-dive-nv-hbi-fuse-two-ai-gpus-together-5th-gen-tensor-cores-5th-gen-nvlink-spectrum-x/.

  3. Desarrollador de NVIDIA. "NVIDIA TensorRT desbloquea la generación de imágenes FP4 para las GPU Blackwell GeForce RTX Serie 50". Blog técnico de NVIDIA. Consultado el 5 de agosto de 2025. https://developer.nvidia.com/blog/nvidia-tensorrt-unlocks-fp4-image-generation-for-nvidia-blackwell-geforce-rtx-50-series-gpus/.

  4. Tom's Hardware. "Nvidia anuncia Blackwell Ultra B300-1,5 veces más rápido que B200 con 288 GB HBM3e y 15 PFLOPS FP4 densos". Consultado el 5 de agosto de 2025. https://www.tomshardware.com/pc-components/gpus/nvidia-announces-blackwell-ultra-b300-1-5x-faster-than-b200-with-288gb-hbm3e-and-15-pflops-dense-fp4.

  5. Desarrollador de NVIDIA. "NVIDIA Blackwell ofrece un rendimiento récord en la inferencia de DeepSeek-R1". Blog técnico de NVIDIA. Consultado el 5 de agosto de 2025. https://developer.nvidia.com/blog/nvidia-blackwell-delivers-world-record-deepseek-r1-inference-performance/.

  6. Lambda. "Acelere su flujo de trabajo de IA con cuantificación FP4 en Lambda". Consultado el 5 de agosto de 2025. https://lambda.ai/blog/lambda-1cc-fp4-nvidia-hgx-b200.

  7. HPCwire. "MLPerf v5.0 refleja el cambio hacia el razonamiento en la inferencia de IA". 2 de abril de 2025. https://www.hpcwire.com/2025/04/02/mlperf-v5-0-reflects-the-shift-toward-reasoning-in-ai-inference/.

  8. Primitiva. "Todo lo que hay que saber sobre el coste de inferencia". Substack. Consultado el 5 de agosto de 2025. https://primitiva.substack.com/p/all-you-need-to-know-about-inference.

  9. Lambda. "Acelere su flujo de trabajo de IA con cuantificación FP4 en Lambda". Consultado el 5 de agosto de 2025. https://lambda.ai/blog/lambda-1cc-fp4-nvidia-hgx-b200.

  10. AMD. "AMD desvela su visión para un ecosistema de IA abierto, detallando nuevo silicio, software y sistemas en Advancing AI 2025". 12 de junio de 2025. https://www.amd.com/en/newsroom/press-releases/2025-6-12-amd-unveils-vision-for-an-open-ai-ecosystem-detai.html.

  11. Próxima plataforma. "Para las empresas de servicios financieros, la inferencia de IA es tan desafiante como la formación". 31 de julio de 2025. https://www.nextplatform.com/2025/07/31/for-financial-services-firms-ai-inference-is-as-challenging-as-training/.

  12. Desarrollador de NVIDIA. "Acelerar el rendimiento de la inferencia de IA generativa con el optimizador de modelos NVIDIA TensorRT, ya disponible públicamente". Blog técnico de NVIDIA. Consultado el 5 de agosto de 2025. https://developer.nvidia.com/blog/accelerate-generative-ai-inference-performance-with-nvidia-tensorrt-model-optimizer-now-publicly-available/.

  13. AMAX. "Las 5 consideraciones principales para implantar NVIDIA Blackwell". Consultado el 5 de agosto de 2025. https://www.amax.com/top-5-considerations-for-deploying-nvidia-blackwell/.

  14. ScienceDirect. "Refrigeración líquida de centros de datos: Una necesidad frente a los desafíos". Consultado el 5 de agosto de 2025. https://www.sciencedirect.com/science/article/abs/pii/S1359431124007804.

  15. Supermicro. "Soluciones NVIDIA Blackwell HGX B200 y GB200 NVL72". Consultado el 5 de agosto de 2025. https://www.supermicro.com/en/accelerators/nvidia.

  16. Desarrollador de NVIDIA. "Presentamos NVFP4 para una inferencia de baja precisión eficiente y precisa". Blog técnico de NVIDIA. Consultado el 5 de agosto de 2025. https://developer.nvidia.com/blog/introducing-nvfp4-for-efficient-and-accurate-low-precision-inference/.

  17. EE Times. "Blackwell de Nvidia ofrece FP4, motor Transformer de segunda generación". 18 de marzo de 2024. https://www.eetimes.com/nvidias-blackwell-gpu-offers-fp4-transformer-engine-sharp/.

  18. BitcoinEthereumNews.com. "Mejora de grandes modelos lingüísticos: Técnicas de cuantificación postentrenamiento de NVIDIA". Consultado el 5 de agosto de 2025. https://bitcoinethereumnews.com/tech/enhancing-large-language-models-nvidias-post-training-quantization-techniques/.

  19. Semianálisis. "NVIDIA GTC 2025 - Built For Reasoning, Vera Rubin, Kyber, CPO, Dynamo Inference, Jensen Math, Feynman". 19 de marzo de 2025. https://semianalysis.com/2025/03/19/nvidia-gtc-2025-built-for-reasoning-vera-rubin-kyber-cpo-dynamo-inference-jensen-math-feynman/.

  20. Fireworks AI. "FireAttention V4: latencia y eficiencia de costes líderes del sector con FP4". Consultado el 5 de agosto de 2025. https://fireworks.ai/blog/fireattention-v4-fp4-b200.

Anterior
Anterior

NVIDIA Omniverse: El sistema operativo de IA física de 50T

Siguiente
Siguiente

La revolución de la IA en Malasia, valorada en 15.000 millones de dólares, impulsa el futuro digital del Sudeste Asiático