Por qué es importante la NVIDIA GB300 NVL72 (Blackwell Ultra) 🤔
NVIDIA ha reunido 72 GPU Blackwell Ultra y 36 CPU Grace en una unidad a escala de rack refrigerada por líquido que consume aproximadamente 120 kW y proporciona 1,1 exaFLOPS de cálculo FP4 con el GB300 NVL72: 1,5 veces más rendimiento de IA que el GB200 NVL72 original (NVIDIA, 2025). Ese único armario cambia todos los supuestos sobre alimentación, refrigeración y cableado de los centros de datos modernos. Esto es lo que están aprendiendo los ingenieros de despliegue mientras preparan los emplazamientos para las primeras entregas de GB300 NVL72 de producción.
1. Disección del bastidor
La carcasa pesa aproximadamente 1,36 t y ocupa el mismo espacio que un rack convencional de 42U (The Register, 2024). El GB300 NVL72 representa Blackwell Ultra, con GPU B300 mejoradas con 288 GB de memoria HBM3e por GPU (un 50% más que los 192 GB del B200 original) que se consiguen a través de pilas HBM3e de 12 alturas en lugar de 8 alturas. Cada superchip ahora combina cuatro GPU B300 con dos CPU Grace, en comparación con la configuración original de dos GPU. Cada superchip Grace-Blackwell combina 72 núcleos de GPU Blackwell Ultra a 2,6 GHz con una CPU Arm Neoverse V2 de 128 núcleos que funciona a una frecuencia base de 3,1 GHz. La memoria HBM3e integrada proporciona 8 TB/s por GPU con una capacidad de 288 GB.
Visión de campo: El centro de gravedad del rack se sitúa un 18% más alto que el de los servidores estándar debido a la densa colocación de los recursos informáticos en las bandejas superiores. Las mejores prácticas recomiendan ahora anclar los raíles de montaje con pernos M12, en lugar de tuercas enjauladas estándar, para hacer frente a las microvibraciones observadas durante el funcionamiento a plena carga.
2. Alimentar a la bestia: suministro de energía
An GB300 NVL72 rack ships with built‑in PSU shelves, delivering 94.5% efficiency at full load. Peak consumption hits 120.8 kW during mixed‑precision training workloads—power quality analyzers typically record 0.97 power factor with <3% total harmonic distortion.
Comparación de topologías de tensión:
208V/60Hz: 335A de corriente de línea, requiere cobre 4/0 AWG (107mm²)
415V/50-60Hz: 168A de corriente de línea, sólo necesita 70mm² de cobre
480V/60Hz: 145A de corriente de línea, despliegue norteamericano mínimo
La mejor práctica del sector consiste en suministrar dos alimentaciones trifásicas de 415 V por bastidor a través de conectores IEC 60309 de 160 A. Esta elección reduce las pérdidas de I²R en un 75% en comparación con 208 V, al tiempo que mantiene la compatibilidad con las normas europeas sobre instalaciones. Las mediciones sobre el terreno indican que los paneles de disyuntores suelen permanecer por debajo del 85% de reducción térmica en salas de 22 °C.
Mitigación de armónicos: Los bastidores GB300 NVL72 presentan una distorsión armónica total del 4,8% bajo cargas típicas de entrenamiento de IA. Los despliegues que superan los ocho bastidores suelen requerir rectificadores de 12 pulsos en transformadores específicos para cumplir la norma IEEE 519.
3. Manual de refrigeración: Realidad de la ingeniería térmica
Cada GPU Blackwell Ultra mide 744 mm² y disipa hasta 1.000 W a través de su interfaz de placa fría. La CPU Grace añade otros 500 W a través de sus 128 núcleos. El programa IR7000 de Dell sitúa el líquido como la vía por defecto para los equipos de clase Blackwell, afirmando capacidades por bastidor de hasta 480 kW con intercambiadores de calor cerrados en la puerta trasera (Dell Technologies, 2024).
Jerarquía térmica recomendada:
≤80 kW/rack: Intercambiadores de puerta trasera con agua de alimentación a 18 °C, caudal de 35 L/min.
80-132 kW/rack: Lazos directos a chip (DTC) obligatorios, alimentación a 15°C, 30 L/min mínimo
132 kW/rack: Se requiere refrigeración por inmersión o configuraciones de rack dividido
Especificaciones DTC de las implantaciones sobre el terreno:
Placa fría ΔT: 12-15 °C a plena carga (temperatura de unión de la GPU: 83-87 °C).
Caída de presión: 2,1 bar en todo el bucle con un 30% de propilenglicol
Distribución del caudal: ±3% de variación en las 72 placas frías GPU
Leak rate: <2 mL/year per QDC fitting (tested over 8,760 hours)
Visión crítica: La red de suministro de energía de Blackwell Ultra presenta transitorios a escala de microsegundos, que alcanzan 1,4 veces la potencia en estado estacionario durante la sincronización de gradientes. La práctica del sector recomienda dimensionar la refrigeración al 110% del TDP nominal para gestionar estos picos térmicos sin que la GPU se ralentice.
4. Estructura de red: gestión de NVLink 5.0 y conectividad mejorada
Cada GB300 NVL72 contiene 72 GPU Blackwell Ultra con NVLink 5.0, lo que proporciona 1,8 TB/s de ancho de banda por GPU y 130 TB/s de ancho de banda NVLink total en todo el sistema. El NVLink de quinta generación funciona a una velocidad de señalización de 200 Gbps por enlace, con 18 enlaces por GPU. Los nueve chips NVSwitch enrutan este tráfico con una latencia de conmutación de 300 nanosegundos y admiten patrones de comunicación GPU-GPU de 576 vías.
La conectividad entre bastidores ahora incluye SuperNIC ConnectX-8 que proporcionan conectividad de red de 800 Gb/s por GPU (el doble de los 400 Gb/s de la generación anterior) y son compatibles con las plataformas InfiniBand Quantum-X800 y Ethernet Spectrum-X de NVIDIA.
Arquitectura de cableado:
Intra‑rack: 1,728 copper Twinax cables (75‑ohm impedance, <5m lengths)
Entre bastidores: 90 puertos QSFP112 mediante transceptores 800G sobre OM4 MMF
Almacenamiento/gestión: 18 DPU Bluefield-3 con enlaces duales de 800 G cada una
Mediciones sobre el terreno:
Presupuesto óptico: 1,5 dB de pérdida de inserción en tramos OM4 de 150 m
BER performance: <10⁻¹⁵ sustained over 72‑hour stress tests
Densidad de conectores: 1.908 terminaciones por rack (incluida la alimentación)
Las mejores prácticas implican el envío de conjuntos troncales preterminados de 144 fibras con pulido APC y la verificación de cada conector mediante pruebas de pérdida de inserción y pérdida de retorno conforme a las normas TIA-568. Los equipos experimentados de dos personas pueden completar una instalación de fibra GB300 NVL72 en 2,8 horas de media, frente a las 7,5 horas que se tarda cuando los técnicos construyen los cables in situ.
Signal integrity insight: NVLink‑5 operates with 25 GBd PAM‑4 signaling. Typical installations maintain a 2.1 dB insertion loss budget per Twinax connection and <120 fs RMS jitter through careful cable routing and ferrite suppression.
5. Lista de comprobación de despliegue probada sobre el terreno
Requisitos estructurales:
Carga del suelo: certificado ≥14 kN/m² (2.030 psf); el peso distribuido supera el de la mayoría de las instalaciones heredadas.
Arriostramiento sísmico: Las instalaciones de Zona 4 requieren arriostramiento X adicional según IBC 2021
Vibration isolation: <0.5g acceleration at 10–1000 Hz to prevent NVLink errors
Infraestructura eléctrica:
Dos alimentaciones de 415 V, 160 A cada una, con control de circuitos derivados Schneider PM8000
Dimensionamiento del SAI: 150 kVA por rack (125% de margen de seguridad) con topología de doble conversión en línea.
Grounding: Isolated equipment ground with <1Ω resistance to facility MGB
Especificaciones de refrigeración:
Coolant quality: <50 µS/cm conductivity, 30% propylene glycol, pH 8.5–9.5
Sustitución del filtro: Plisado de 5 µm cada 1.000 horas, final de 1 µm cada 2.000 horas
Detección de fugas: Sensores de fluido conductivos en todos los racores QDC con sensibilidad de 0,1 ml.
Inventario de piezas de repuesto:
Una bandeja NVSwitch (plazo de entrega: 6 semanas)
Dos cartuchos de bomba CDU (MTBF: 8.760 horas)
20 transceptores QSFP112 (tasa de fallos de campo: 0,02% anual)
Material de interfaz térmica de emergencia (Honeywell PTM7950, tubos de 5 g)
Acuerdo de nivel de servicio de asistencia remota: la respuesta in situ en 4 horas se está convirtiendo en la norma del sector. Los socios de implantación líderes mantienen este objetivo en varios países con un tiempo de actividad superior al 99%.
6. Caracterización del rendimiento bajo cargas de producción
Puntos de referencia del razonamiento de IA (a partir de los primeros informes de implantación):
Modelo DeepSeek R1-671B: Hasta 1.000 tokens/segundo de rendimiento sostenido
Modelo de parámetros GPT-3 175B: 847 tokens/segundo/GPU de media
Stable Diffusion 2.1: 14,2 imágenes/segundo a una resolución de 1024×1024
Entrenamiento ResNet-50 ImageNet: rendimiento sostenido de 2.340 muestras/segundo
Escalado de la eficiencia energética:
Utilización de un solo rack: 1,42 GFLOPS/Watio al 95% de utilización de la GPU.
Clúster de 10 bastidores: 1,38 GFLOPS/Watio (la sobrecarga de refrigeración reduce la eficiencia)
Potencia de red en reposo: 3,2 kW por rack (NVSwitch + transceptores)
Mejoras en el rendimiento del razonamiento de IA: GB300 NVL72 ofrece un aumento de 10 veces en tokens por segundo por usuario y una mejora de 5 veces en TPS por megavatio en comparación con Hopper, lo que supone un aumento potencial combinado de 50 veces en el rendimiento de salida de la fábrica de IA.
Efectos de los ciclos térmicos: Tras 2.000 horas de funcionamiento en producción, las primeras implantaciones informan de una degradación del rendimiento del 0,3% debida al bombeo de material de interfaz térmica. La sustitución programada del TIM a intervalos de 18 meses mantiene el máximo rendimiento.
7. Análisis del TCO en la nube frente al on-prem
Lambda ofrece GPU B200 por tan sólo 2,99 dólares por hora de GPU con compromisos plurianuales (Lambda 2025). El modelo financiero que incorpora los costes reales de las instalaciones a partir de los despliegues de la industria muestra:
Desglose de costes por estantería a lo largo de 36 meses:
CapEx de hardware: entre 3,7 y 4,0 millones de dólares (incluidos repuestos y herramientas) para GB300 NVL72
Energía de las instalaciones: 310.000 dólares a 0,08 dólares/kWh con una utilización media del 85%.
Infraestructura de refrigeración: 180.000 dólares (CDU, fontanería, controles)
Personal de operaciones: 240.000 dólares (0,25 ETC de coste completo)
Total: 4,43-4,73 millones de dólares frente a los 4,7 millones del equivalente en la nube
El punto de equilibrio se alcanza con una tasa media de utilización del 67% en 18 meses, teniendo en cuenta la depreciación, la financiación y los costes de oportunidad. Los directores financieros de las empresas ganan previsibilidad presupuestaria al tiempo que evitan la dependencia del proveedor de la nube.
8. GB300 vs GB200: Entendiendo Blackwell Ultra
GB200 de la generación anterior
La GB300 NVL72 (Blackwell Ultra) representa una evolución significativa con respecto a la GB200 NVL72 original. Las principales mejoras incluyen 1,5 veces más rendimiento de cálculo de IA, 288 GB de memoria HBM3e por GPU (frente a 192 GB) y un mayor enfoque en la inferencia de escalado en tiempo de prueba para aplicaciones de razonamiento de IA.
La nueva arquitectura multiplica por 10 los tokens por segundo por usuario y por 5 los TPS por megavatio en comparación con Hopper, lo que supone un aumento potencial combinado de 50 veces en el rendimiento de la fábrica de IA. Esto hace que el GB300 NVL72 esté optimizado específicamente para la era emergente del razonamiento de IA, en la que modelos como DeepSeek R1 requieren una capacidad de cálculo sustancialmente mayor durante la inferencia para mejorar la precisión.
Calendario de disponibilidad: Los sistemas GB300 NVL72 se esperan de los socios en la segunda mitad de 2025, frente al GB200 NVL72 que ya está disponible.
9. Por qué las empresas de Fortune 500 eligen socios de implantación especializados
Los principales especialistas en despliegue han instalado más de 100 000 GPU en más de 850 centros de datos, manteniendo acuerdos de nivel de servicio (SLA) globales de 4 horas a través de amplios equipos de ingeniería de campo. El sector ha puesto en servicio miles de kilómetros de fibra y múltiples megavatios de infraestructura dedicada a la IA desde 2022.
Métricas de despliegue recientes:
Plazo medio de preparación: 6,2 semanas (frente a las 11 semanas de media del sector).
Tasa de éxito en la primera pasada: 97,3% en las pruebas de encendido
Problemas posteriores al despliegue: 0,08% de fallos de componentes en los primeros 90 días.
Los fabricantes de equipos originales envían el hardware; los socios especializados lo transforman en infraestructura de producción. Contar con equipos de despliegue experimentados durante las fases de planificación puede reducir los plazos en un 45% mediante el uso de mazos de cables prefabricados, bucles de refrigeración preconfigurados y haces de fibra terminados en fábrica.
Reflexión de despedida
Un armario GB300 NVL72 representa un cambio fundamental de "servidores en bastidores" a "centros de datos en armarios". La física no perdona: 120 kW de densidad de cálculo exigen precisión en cada conexión eléctrica, circuito de refrigeración y terminación de fibra. Domine los fundamentos de ingeniería en el Día 0 y Blackwell Ultra ofrecerá un rendimiento de razonamiento de IA transformador en los años venideros.
¿Listo para hablar de los detalles técnicos que no caben en 2.000 palabras? A nuestros ingenieros de implantación les encantan estas conversaciones: programe una charla técnica en profundidad en solutions@introl.com.
Referencias
Dell Technologies. 2024. "Dell AI Factory transforma los centros de datos con refrigeración avanzada, computación de alta densidad e innovaciones de almacenamiento de IA". Comunicado de prensa, 15 de octubre. Sala de prensa de Dell Technologies
Introl. 2025. "Despliegues de infraestructura de GPU e ingenieros de campo globales". Consultado el 23 de junio. introl.com
Lambda. 2025. "Precios de AI Cloud - Clusters NVIDIA B200". Consultado el 23 de junio. Precios de Lambda Labs
NVIDIA. 2025. "Página del producto GB300 NVL72". Consultado el 23 de junio. Centro de datos de NVIDIA
NVIDIA. 2025. "La plataforma NVIDIA Blackwell Ultra AI Factory abre el camino a la era del razonamiento de IA". Comunicado de prensa, 18 de marzo. Noticias de NVIDIA
Supermicro. 2025. "Hoja de datos de NVIDIA GB300 NVL72 SuperCluster". Febrero. Hoja de datos de Supermicro
El Registro. 2024. Mann, Tobias. "Un bastidor, 120 kW de cálculo: Una mirada más de cerca a la bestia DGX GB200 NVL72 de NVIDIA". 21 de marzo. The Register