40-250 kW por rack: soluciones para centros de datos de densidad extrema

Los centros de datos construidos hace cinco años tienen dificultades para refrigerar 10 kW por rack. Las cargas de trabajo de IA actuales requieren un mínimo de 40 kW, y los despliegues de próxima generación aspiran a 250 kW. La brecha entre la infraestructura existente y los requisitos modernos crea un problema de 100.000 millones de dólares que una ingeniería inteligente puede resolver.

Los sistemas GB200 NVL72 de NVIDIA consumen 140 kW en una sola configuración de bastidor.¹ Las últimas implantaciones de Azure de Microsoft alcanzan habitualmente los 50 kW por bastidor.² Google alcanza densidades de 60 kW en sus TPU pods.³ La infraestructura que alimentaba la nube de ayer no puede soportar la IA de mañana, y las organizaciones se enfrentan a una dura disyuntiva: reconstruir desde cero o diseñar soluciones creativas que salven las distancias.

La física del enfriamiento por densidad extrema

La refrigeración por aire en suelo elevado tradicional falla catastróficamente por encima de los 15 kW por rack. La recirculación de aire caliente puede crear condiciones de fuga térmica, en las que las temperaturas se descontrolan. Un solo rack de 40 kW genera el mismo calor que 14 calefactores residenciales en funcionamiento continuo. Si se colocan ocho de estos bastidores en fila, se está gestionando la producción térmica de un pequeño edificio de oficinas comprimido en 200 pies cuadrados.

Los ingenieros resuelven los retos de densidad extrema mediante tres enfoques fundamentales. La refrigeración líquida directa lleva el refrigerante directamente a la fuente de calor, eliminando entre 30 y 40 kW por bastidor con intercambiadores de calor de puerta trasera o placas frías. La refrigeración por inmersión sumerge sistemas enteros en fluido dieléctrico, gestionando densidades de 50-100 kW y eliminando la necesidad de ventiladores. Los enfoques híbridos combinan múltiples tecnologías, utilizando refrigeración líquida para las GPU y manteniendo la refrigeración por aire para los componentes de menor densidad.

Las matemáticas favorecen decisivamente la refrigeración líquida. El coeficiente de transferencia de calor del agua es 3.500 veces superior al del aire⁴. Un solo galón de agua puede eliminar el mismo calor que 3.000 pies cúbicos de aire. Los sistemas de refrigeración líquida alcanzan índices de eficacia en el uso de la energía (PUE) de 1,02-1,10, frente al 1,4-1,8 de la refrigeración por aire tradicional.⁵ Cada mejora de 0,1 en la PUE ahorra aproximadamente un millón de dólares anuales en una instalación de 10 MW.⁶

Los retos de la distribución de energía se multiplican a escala.

Alimentar un solo rack con 250 kW requiere un rediseño fundamental de la infraestructura eléctrica. Los circuitos tradicionales de 208 V requieren conexiones de 1.200 amperios, es decir, tendidos de cable más gruesos que un brazo humano. Las instalaciones modernas utilizan una distribución de 415 V o 480 V para reducir los requisitos de corriente, pero incluso estos sistemas requieren grandes inversiones en cobre. Un solo rack de 250 kW requiere una infraestructura eléctrica equivalente a la de 50 viviendas normales.

Los ingenieros de campo de Introl se encuentran regularmente con instalaciones que intentan adaptar diseños de 5 kW para cargas de 40 kW. Los disyuntores se disparan constantemente. Los transformadores se sobrecalientan. Las unidades de distribución de energía fallan bajo cargas para las que nunca fueron diseñadas. Las organizaciones a menudo descubren que la capacidad total de energía de su edificio no puede soportar más que un puñado de bastidores de alta densidad, obligando a costosas actualizaciones de servicios públicos que tardan entre 18 y 24 meses en completarse.

Un diseño inteligente de la alimentación empieza por la distribución de corriente continua siempre que sea posible. La corriente continua elimina las pérdidas de conversión que desperdician entre el 10 y el 15% de la energía en los sistemas de corriente alterna tradicionales.⁷ El proyecto Open Compute de Facebook demostró que la distribución de corriente continua reduce el consumo total de energía en un 20% y mejora la fiabilidad.⁸ Los sistemas de GPU modernos admiten cada vez más la entrada de corriente continua directa, lo que elimina las múltiples etapas de conversión que generan calor y reducen la eficiencia.

La infraestructura mecánica requiere una completa reimaginación.

Los suelos estándar de los centros de datos soportan entre 150 y 250 libras por pie cuadrado. Un rack de 250 kW completamente cargado pesa más de 2.000 kilos, concentrados en sólo 3 metros cuadrados.⁹ El refuerzo del suelo se convierte en obligatorio, lo que añade entre 50.000 y 100.000 dólares por rack en mejoras estructurales. Las zonas sísmicas se enfrentan a retos adicionales, ya que requieren sistemas de aislamiento especializados que eviten daños en los equipos durante los terremotos.

La refrigeración líquida introduce nuevas complejidades mecánicas. La distribución de refrigerante requiere bombas, intercambiadores de calor y sistemas de filtración de los que carecen las instalaciones tradicionales. Una instalación de refrigeración líquida de 1MW necesita un caudal de refrigerante de 400-500 galones por minuto.¹⁰ La detección de fugas es fundamental: una sola fuga de refrigerante puede destruir millones de dólares en equipos en cuestión de segundos. Introl utiliza un sistema de detección de fugas de triple redundancia con válvulas de cierre automáticas que se activan en 100 milisegundos tras detectar humedad.

La infraestructura de tuberías por sí sola representa una inversión enorme. Las tuberías de cobre cuestan entre 30 y 50 dólares por pie lineal instalado.¹¹ Una sola fila de bastidores refrigerados por líquido requiere entre 500 y 1.000 pies de tuberías para las líneas de suministro y retorno. Los colectores, válvulas y puntos de conexión suman entre 20.000 y 30.000 dólares por rack. La infraestructura mecánica suele costar más que los equipos informáticos que soporta.

La arquitectura de la red se adapta a las necesidades de densidad.

La computación de densidad extrema exige un ancho de banda de red sin precedentes. Cada GPU NVIDIA H100 requiere 400 Gbps de conectividad de red para un rendimiento óptimo.¹² Un servidor de 8 GPU necesita 3,2 Tbps de ancho de banda agregado, más de lo que consumían muchos centros de datos enteros hace cinco años. Las arquitecturas tradicionales de conmutación en la parte superior del rack tienen dificultades para satisfacer estos requisitos.

Los despliegues densos impulsan la adopción de arquitecturas de red desagregadas. Las topologías en espina dorsal proporcionan una latencia y un ancho de banda constantes independientemente de los patrones de tráfico. La fotónica de silicio permite conexiones de 800 Gbps y 1,6 Tbps que el cobre no puede alcanzar.¹³ Los despliegues de Introl utilizan cada vez más cables de cobre de conexión directa (DAC) para conexiones de menos de 3 metros y cables ópticos activos (AOC) para tramos más largos, optimizando tanto el coste como el consumo de energía.

La gestión del cableado se vuelve sorprendentemente compleja en densidades extremas. Un rack de 40 GPU requiere más de 200 cables para alimentación, redes y gestión. Cada cable genera calor por resistencia eléctrica. Una mala gestión del cableado restringe el flujo de aire, creando puntos calientes que desencadenan el estrangulamiento térmico. Los ingenieros de Introl dedican entre el 20% y el 30% del tiempo de instalación a la gestión de los cables, utilizando sistemas de enrutamiento especializados que mantienen los radios de curvatura adecuados al tiempo que maximizan la eficiencia de la refrigeración.

Las limitaciones geográficas determinan las estrategias de despliegue.

Singapur lidera la adopción de densidad global con nuevas instalaciones diseñadas para 50-100 kW por rack desde el primer día.¹⁴ La escasez de suelo impulsa la expansión vertical y el máximo cómputo por pie cuadrado. Los incentivos gubernamentales apoyan la adopción de la refrigeración líquida mediante la reducción de impuestos y la agilización de permisos. Presencia en presencia en APAC nos sitúa en el centro de la transformación, con ingenieros locales que entienden los requisitos y normativas regionales.

Los mercados del norte de Europa aprovechan los climas fríos para obtener ventajas de refrigeración gratuita. Los centros de datos de Estocolmo utilizan agua fría del mar Báltico para el rechazo del calor, logrando un PUE inferior a 1,10 durante todo el año.¹⁵ Las instalaciones noruegas combinan la energía hidroeléctrica con la refrigeración natural para crear la infraestructura de IA más eficiente del mundo. Introl gestiona despliegues que aprovechan estas ventajas geográficas al tiempo que mantienen los estándares de conectividad global.

La disponibilidad de agua determina cada vez más la ubicación de las instalaciones. Los sistemas de refrigeración líquida consumen entre 0,1 y 0,2 galones por minuto y kW de capacidad de refrigeración.¹⁶ Una instalación de 10 MW necesita entre 1.000 y 2.000 galones por minuto, suficientes para llenar una piscina olímpica cada cinco horas. Los lugares desérticos se enfrentan a opciones imposibles entre la ineficacia de la refrigeración por aire y la escasez de agua. Ahora, las organizaciones con visión de futuro evalúan los derechos de agua junto con la disponibilidad de energía a la hora de seleccionar las ubicaciones de los centros de datos.

Los modelos económicos impulsan las decisiones de adopción.

El argumento comercial a favor de una infraestructura de densidad extrema depende de las características de la carga de trabajo. Las cargas de trabajo de formación de IA que se ejecutan continuamente durante semanas justifican cualquier inversión que mejore la eficiencia. Una mejora del rendimiento del 1% en una ejecución de entrenamiento de un mes de duración ahorra 7,2 horas de tiempo de cálculo. A 40 dólares por GPU-hora para instancias H100, optimizaciones aparentemente pequeñas generan enormes beneficios.¹⁷

Las comparaciones de gastos de capital (CapEx) favorecen a la infraestructura tradicional, pero los gastos operativos (OpEx) cuentan una historia diferente. La refrigeración líquida reduce el consumo de energía entre un 30 y un 40% en comparación con la refrigeración por aire.¹⁸ Un despliegue de 1 MW ahorra entre 400.000 y 500.000 dólares anuales solo en costes de electricidad.¹⁹ La reducción del desgaste mecánico prolonga la vida útil de los equipos entre un 20 y un 30%, aplazando los costes de sustitución.²⁰ Una mayor densidad permite más computación en las instalaciones existentes, evitando nuevos costes de construcción que ascienden a una media de entre 10 y 15 millones de dólares por megavatio.²¹

Los modelos de coste total de propiedad (CTP) deben tener en cuenta los costes de oportunidad. Las organizaciones que no pueden desplegar una infraestructura de alta densidad pierden una ventaja competitiva frente a las que sí pueden. La diferencia entre 40 kW y 100 kW por rack determina si los modelos se entrenan en semanas o en meses. El liderazgo del mercado depende cada vez más de las capacidades de infraestructura que las métricas tradicionales no logran captar.

La complejidad operativa exige nuevos conocimientos.

La gestión de infraestructuras de densidad extrema exige conocimientos de los que carecen los equipos tradicionales de los centros de datos. Los sistemas de refrigeración líquida requieren conocimientos de fontanería que rara vez se encuentran en los departamentos de TI. Los técnicos deben comprender la dinámica de fluidos, los diferenciales de presión y la química de los refrigerantes. Un solo parámetro mal configurado puede causar un fallo catastrófico: demasiada presión puede reventar las conexiones, mientras que muy poca puede provocar la cavitación de la bomba.

Introl aborda esta carencia de conocimientos mediante programas de formación especializados para nuestros 550 ingenieros de campo. Los equipos aprenden a diagnosticar problemas de flujo de refrigerante, a realizar el mantenimiento preventivo de las unidades de distribución de refrigeración y a reaccionar ante fugas. Los programas de certificación cubren los requisitos específicos de los fabricantes para las distintas tecnologías de refrigeración. Los equipos regionales comparten las mejores prácticas a través de nuestra base de conocimientos global, garantizando una calidad de servicio uniforme en las 257 ubicaciones.

Los sistemas de monitorización generan entre 10 y 100 veces más datos que las infraestructuras tradicionales. Cada bastidor produce miles de puntos de telemetría que cubren la temperatura, la presión, el caudal, el consumo de energía y el estado de los componentes. Los algoritmos de aprendizaje automático identifican patrones que predicen fallos antes de que se produzcan. Los equipos operativos de Introl utilizan análisis predictivos para programar el mantenimiento durante los periodos de inactividad planificados, logrando una disponibilidad del 99,999% para las cargas de trabajo de IA críticas.

Las tecnologías del futuro van más allá.

Las GPU de nueva generación exigirán una infraestructura aún más extrema. La hoja de ruta de NVIDIA apunta a 1500-2000 W por GPU en 2027.²³ La serie MI400 de AMD tiene como objetivo un consumo de energía similar.²⁴ Los motores Cerebras a escala de oblea ya consumen 23 kW en una sola unidad.²⁵ La infraestructura del mañana deberá manejar densidades que hoy parecen imposibles.

La refrigeración bifásica por inmersión surge como la solución definitiva para la densidad extrema. Los fluidos dieléctricos hierven a temperaturas controladas con precisión, proporcionando una refrigeración isotérmica que mantiene los componentes en puntos de funcionamiento óptimos. El cambio de fase de líquido a vapor absorbe enormes cantidades de calor: hasta 250 kW por rack.²⁶ El Departamento de Energía de EE. UU. financia la investigación de la refrigeración bifásica para sistemas informáticos a exaescala.²⁷.

Los pequeños reactores modulares (SMR) podrían eliminar las limitaciones de potencia de la red. Los hiperescaladores exploran la posibilidad de ubicar la energía nuclear junto a los centros de datos, proporcionando electricidad libre de carbono a costes predecibles. Un único SMR de 300 MW podría suministrar energía a 3.000 bastidores de 100 kW, suficiente para 24.000 GPUs.²⁸ La aprobación reglamentaria sigue siendo complicada, pero la rentabilidad resulta convincente a escala suficiente.

El camino a seguir exige una acción inmediata.

Las organizaciones que construyen infraestructuras de IA se enfrentan hoy a decisiones críticas que determinan la posición competitiva para la próxima década. Adaptar las instalaciones existentes a una densidad de 40 kW cuesta entre 50.000 y 100.000 dólares por rack.²⁹ Construir una nueva infraestructura con capacidad para 100 kW cuesta entre 200.000 y 300.000 dólares por rack, pero ofrece margen para el crecimiento futuro.²⁰ La elección equivocada encierra a las organizaciones en una infraestructura obsoleta justo cuando las cargas de trabajo de IA se disparan.

El éxito de las transiciones comienza con una evaluación exhaustiva. Los equipos de ingeniería de Introl evalúan la capacidad energética, la infraestructura de refrigeración, el soporte estructural y la arquitectura de red existentes para garantizar un rendimiento óptimo. Identificamos los cuellos de botella que limitan los aumentos de densidad y desarrollamos planes de actualización por fases que minimizan las interrupciones. Nuestra presencia mundial permite un rápido despliegue de equipos especializados y experiencia allí donde los clientes necesiten soluciones de densidad extrema.

Los ganadores en infraestructura de IA serán los que adopten la densidad extrema en lugar de luchar contra ella. Cada mes de retraso significa que los competidores entrenan modelos más rápido, despliegan funciones antes y captan mercados primero. La cuestión no es si adoptar o no una infraestructura de alta densidad, sino con qué rapidez pueden las organizaciones transformar sus instalaciones para soportar los requisitos informáticos que definen la ventaja competitiva en la era de la IA.

Referencias

  1. NVIDIA. "Sistema NVIDIA DGX GB200 NVL72 de refrigeración líquida para rack". Corporación NVIDIA, 2024. https://www.nvidia.com/en-us/data-center/dgx-gb200/

  2. Microsoft Azure. "Innovaciones de infraestructura para cargas de trabajo de IA". Microsoft Corporation, 2024. https://azure.microsoft.com/en-us/blog/azure-infrastructure-ai/

  3. Nube de Google. "TPU v5p: Cloud TPU Pods para grandes modelos lingüísticos". Google LLC, 2024. https://cloud.google.com/tpu/docs/v5p

  4. ASHRAE. "Propiedades térmicas del agua frente al aire en aplicaciones de centros de datos". Comité Técnico 9.9 de ASHRAE, 2024.

  5. Uptime Institute. "Encuesta mundial sobre centros de datos 2024: Tendencias PUE". Uptime Institute, 2024. https://uptimeinstitute.com/resources/research/annual-survey-2024

  6. Laboratorio Nacional Lawrence Berkeley. "Data Center Energy Efficiency Cost-Benefit Analysis". LBNL, 2023. https://datacenters.lbl.gov/resources

  7. Proyecto Open Compute. "DC Power Distribution Benefits Analysis". Fundación OCP, 2023. https://www.opencompute.org/projects/dc-power

  8. ---. "Informe de eficiencia del centro de datos de Facebook Prineville". Fundación OCP, 2023. https://www.opencompute.org/datacenter/prineville

  9. Schneider Electric. "Guía de peso y carga en el suelo de racks de alta densidad". Schneider Electric, 2024. https://www.se.com/us/en/download/document/SPD_VAVR-ABZGDH_EN/

  10. Vertiv. "Directrices de diseño de refrigeración líquida para infraestructuras de IA". Vertiv, 2024. https://www.vertiv.com/en-us/solutions/learn-about/liquid-cooling-guide/

  11. RSMeans. "Datos de Costes Mecánicos 2024: Sistemas de tuberías". Datos gordianos de RSMeans, 2024.

  12. NVIDIA. "Whitepaper de la arquitectura de GPU de núcleo tensorial NVIDIA H100". NVIDIA Corporation, 2023. https://resources.nvidia.com/en-us-tensor-core/nvidia-h100-datasheet

  13. Intel. "Fotónica de silicio: Gran avance en la conectividad de centros de datos". Intel Corporation, 2024. https://www.intel.com/content/www/us/en/architecture-and-technology/silicon-photonics/silicon-photonics-overview.html

  14. Autoridad de Desarrollo de Medios Infocomm. "Hoja de ruta del centro de datos de Singapur 2024". IMDA Singapur, 2024. https://www.imda.gov.sg/resources/data-centre-roadmap

  15. DigiPlex. "Centro de datos de Estocolmo: Innovación en refrigeración sostenible". DigiPlex, 2023. https://www.digiplex.com/stockholm-datacenter

  16. ASHRAE. "Directrices de refrigeración líquida para centros de datos, 2ª edición". Comité Técnico 9.9 de ASHRAE, 2024.

  17. Servicios web de Amazon. "Precios de instancias EC2 P5". AWS, 2024. https://aws.amazon.com/ec2/instance-types/p5/

  18. Dell Technologies. "Análisis del ROI de la refrigeración líquida directa". Dell Technologies, 2024. https://www.dell.com/en-us/dt/solutions/high-performance-computing/liquid-cooling.htm

  19. Administración de Información Energética de EE.UU. "Tarifas eléctricas comerciales por estado". EIA, 2024. https://www.eia.gov/electricity/monthly/epm_table_grapher.php

  20. Submer. "Estudio del impacto de la refrigeración por inmersión en la longevidad del hardware". Submer, 2023. https://submer.com/resources/hardware-longevity-study/

  21. JLL. "Guía de costes de construcción de centros de datos 2024". Jones Lang LaSalle, 2024. https://www.us.jll.com/en/trends-and-insights/research/data-center-construction-costs

  22. OpenAI. "Requisitos de la infraestructura de formación GPT-4". OpenAI, 2023. https://openai.com/research/gpt-4-infrastructure

  23. NVIDIA. "Actualización de la hoja de ruta plurianual de las GPU". NVIDIA GTC 2024 Keynote, marzo de 2024.

  24. AMD. "Preanuncio de la serie Instinct MI400". Día del inversor de AMD, 20 de junio de 2024.

  25. Cerebras. "Especificaciones del motor a escala de oblea CS-3". Cerebras Systems, 2024. https://www.cerebras.net/product-chip/

  26. 3M. "Refrigeración por inmersión bifásica Novec para centros de datos". 3M Corporation, 2024. https://www.3m.com/3M/en_US/data-center-us/applications/immersion-cooling/

  27. Departamento de Energía de EE.UU. "Proyecto de computación a exaescala: Innovaciones en refrigeración". Oficina de Ciencia del DOE, 2024. https://www.exascaleproject.org/cooling-research/

  28. NuScale Power. "Aplicaciones SMR para alimentación de centros de datos". NuScale Power Corporation, 2024. https://www.nuscalepower.com/applications/data-centers

  29. Gartner. "Análisis de costes de modernización de centros de datos 2024". Gartner, Inc., 2024.

  30. ---. "Greenfield AI Data Center Construction Economics". Gartner, Inc., 2024.

Anterior
Anterior

Google TPU v6e vs GPU: 4 veces mejor rendimiento de IA por dólar Guía

Siguiente
Siguiente

Acuerdo OpenAI-NVIDIA por valor de 100.000 millones de dólares: infraestructura de IA de 10 gigavatios