Por qué los centros de datos de IA no se parecen en nada a los de hace dos años

La convergencia de hardware revolucionario, sofisticadas tecnologías de refrigeración y experiencia en despliegues estratégicos está transformando la forma en que las empresas crearán infraestructuras de IA en 2025. El sistema GB300 NVL72 de NVIDIA introduce una innovadora tecnología de suavizado de la energía que reduce los picos de demanda de la red hasta en un 30%, mientras el mercado mundial de infraestructuras de GPU se acerca a los 190.000 millones de dólares en 2030. Las organizaciones que dominan la compleja interacción de la gestión de la energía, las soluciones térmicas y las asociaciones estratégicas están logrando un ROI de entre el 150% y el 350% de sus inversiones en IA, mientras que aquellas con una mala planificación de la infraestructura se enfrentan a un tiempo de inactividad de los recursos de entre el 40% y el 70% y a tasas de fracaso de los proyectos superiores al 80%.

El panorama de la infraestructura de IA ha alcanzado un punto de inflexión en el que los enfoques tradicionales de los centros de datos son fundamentalmente inadecuados. Según las previsiones, el consumo de energía de las cargas de trabajo de IA representará el 27% del uso total del centro de datos en 2027, y las ejecuciones individuales de entrenamiento podrían requerir hasta 8 gigavatios en 2030. Este crecimiento explosivo, combinado con la duplicación de las necesidades de energía de las GPU de 400 W a más de 1.000 W en sólo tres años, exige enfoques totalmente nuevos para el diseño, la implementación y la gestión de la infraestructura. Compañías como Introl han surgido como facilitadores críticos, gestionando despliegues de hasta 100.000 GPUs a la vez que abordan la grave escasez de talento que afecta al 90% de las organizaciones que intentan llevar a cabo proyectos de infraestructura de IA.

La revolucionaria gestión de la energía satisface una demanda sin precedentes.

El GB300 NVL72 de NVIDIA representa un cambio de paradigma a la hora de abordar los retos de infraestructura propios de la IA. La tecnología trifásica de suavización del consumo de energía del sistema, que combina la limitación del consumo durante el arranque, el almacenamiento de energía integrado de 65 julios por GPU y el hardware inteligente de quema de energía durante el arranque y el apagado, resuelve directamente los problemas de sincronización de la red creados cuando miles de GPU funcionan al mismo tiempo. Esta innovación permite a los centros de datos aprovisionar la infraestructura en función del consumo medio en lugar de los picos, lo que puede aumentar la densidad de cálculo en un 30% dentro de los límites de consumo existentes.

Las especificaciones técnicas revelan por qué esto es importante para las implantaciones empresariales. Con 72 GPU Blackwell Ultra que proporcionan 70 veces más FLOPS de IA que las plataformas Hopper anteriores y 40 TB de memoria coherente por bastidor, la GB300 NVL72 funciona como una única unidad de cálculo masiva a través de su dominio NVLink de 130 TB/s. El sistema logra una mejora de 5 veces en tokens por megavatio en comparación con las generaciones anteriores, abordando directamente la intersección de las demandas de rendimiento y las restricciones de potencia que limitan la escala de implantación de la IA. La integración de la refrigeración líquida permite multiplicar por 25 el rendimiento con el mismo consumo de energía en comparación con la infraestructura H100 tradicional refrigerada por aire. De repente, los cálculos de las implantaciones de IA tienen sentido.

Y el dinero que entra a raudales lo demuestra. ¿Ventas de GPU? Pasarán de 20.000 millones de dólares este año a 180.000-190.000 millones en 2030. Echa cuentas, eso es multiplicar por 10 el crecimiento en seis años. No es de extrañar que todos los proveedores estén luchando por posicionarse. Sin embargo, este crecimiento se enfrenta a graves limitaciones de infraestructura, con plazos de entrega para las conexiones eléctricas que superan los tres años en los principales mercados y escasez de equipos críticos que crean retrasos de dos años para los transformadores y las unidades de distribución de energía. Las organizaciones recurren cada vez más a socios de implantación especializados para superar estos retos, y el 34% de las grandes empresas utilizan ya modelos de GPU como servicio para acceder a la capacidad necesaria sin necesidad de realizar grandes inversiones de capital.

La revolución de la refrigeración permite un gran avance en la densidad de la IA.

La transición de la refrigeración por aire a la refrigeración líquida representa algo más que una mejora incremental; es un requisito fundamental para las cargas de trabajo de IA modernas. La refrigeración por aire tradicional, eficaz solo hasta 35 °C con un 80 % de retención del rendimiento de la CPU, no puede gestionar las densidades de rack de 50-100 kilovatios que ahora son estándar en las implementaciones de IA. Esta limitación ha impulsado el mercado de la refrigeración líquida de 5 650 millones de dólares en 2024 a una proyección de 48 420 millones de dólares para 2034, con tasas de adopción que aumentan del 7% al 22% de los centros de datos en solo tres años.

Las soluciones de refrigeración líquida directa al chip gestionan ahora hasta 1.600 W por componente, lo que permite aumentar la densidad de servidores en un 58% en comparación con la refrigeración por aire y reducir el consumo de energía de la infraestructura en un 40%. Empresas como JetCool, con su refrigeración microconvectiva SmartPlate dirigida a los puntos calientes de la GPU, y las plataformas DLC 3000/7000 de Dell demuestran cómo la gestión térmica específica puede transformar la economía de la implantación. La refrigeración por inmersión amplía aún más los límites, con sistemas como ICEraQ de GRC que alcanzan una capacidad de refrigeración de hasta 368 kilovatios por sistema, manteniendo al mismo tiempo una eficacia de uso de energía inferior a 1,03.

Las ventajas cuantitativas son convincentes. La refrigeración líquida reduce el consumo de energía de los servidores en un 11% de media y elimina el 80% de los requisitos de espacio de la infraestructura de refrigeración tradicional. El despliegue de PhonePe con Dell demostró una reducción del PUE de 1,8 a 1,3 gracias a la refrigeración líquida, lo que se traduce en un ahorro energético del 40% para las operaciones de infraestructura. Para despliegues a hiperescala, Supermicro ya ha suministrado más de 100.000 GPU NVIDIA con refrigeración líquida integrada, lo que demuestra que la tecnología está preparada para la escala de producción.

La experiencia en despliegue estratégico salva las distancias en la implantación.

La complejidad de la infraestructura moderna de IA ha creado una necesidad crítica de socios de despliegue especializados. Introl ejemplifica esta nueva categoría de habilitador de infraestructuras, habiendo pasado de ser una startup a gestionar despliegues de hasta 100.000 GPU a nivel global con un crecimiento anual de los ingresos de más del 100% desde 2021. Su modelo de fuerza de trabajo como servicio aborda directamente la crisis de talento que afecta al 90 % de las organizaciones, donde las carencias de personal en la gestión de infraestructuras informáticas especializadas generan retrasos en el despliegue que cuestan a las empresas 5 millones de dólares o más al día en oportunidades perdidas.

El modelo operativo de Introl revela las mejores prácticas para el despliegue de infraestructuras de IA. Con más de 550 ingenieros de campo capaces de movilizarse en 72 horas para proyectos críticos, han desplegado con éxito 1.024 nodos de GPU H100 en sólo dos semanas para un proveedor de nube principal, lo que demuestra la velocidad de ejecución necesaria en el panorama competitivo actual. Su experiencia abarca todo el ciclo de vida del despliegue, desde más de 40.000 kilómetros de cableado de fibra óptica para interconexiones de GPU hasta la gestión avanzada de la energía para armarios de IA de 120 kW. Las asociaciones estratégicas con IBM para la integración de la plataforma Watsonx y Juniper Networks para la conmutación de alto rendimiento crean soluciones integrales que abordan los requisitos de la pila de hardware y software.

Los patrones de despliegue de las empresas favorecen cada vez más los enfoques híbridos: el 59% de las grandes empresas utilizan nubes públicas para la formación en IA, mientras que el 60% recurre a proveedores de colocación y el 49% mantiene una infraestructura local. Esta estrategia multimodal refleja los diversos requisitos de las cargas de trabajo de IA, desde los requisitos de latencia de 2 milisegundos para la robótica de fabricación hasta las ejecuciones masivas de formación paralela que requieren miles de GPU sincronizadas. Las organizaciones que logran el éxito comparten características comunes: plataformas de IA centralizadas que reducen los costes de implantación posteriores entre un 50 y un 80%, equipos multifuncionales que combinan la experiencia en el campo con las capacidades técnicas y enfoques de escalado iterativos que demuestran el valor antes de la implantación en toda la empresa.

El impacto empresarial cristaliza el imperativo de la infraestructura.

Las implicaciones financieras de un despliegue adecuado de la infraestructura de GPU van mucho más allá de las métricas técnicas. JPMorgan Chase generó 220 millones de dólares en ingresos adicionales gracias a la personalización impulsada por la IA y consiguió mejoras de productividad del 90% en el procesamiento de documentos. La delgada diferencia entre el éxito y el fracaso a menudo radica en la estrategia de infraestructura, ya que los sistemas desplegados correctamente alcanzan tasas de utilización del 85-96%, frente al 40-60% de las implantaciones mal planificadas.

El análisis del coste total de propiedad revela la importancia de la planificación estratégica. El hardware y la infraestructura suelen representar entre el 40 y el 60% de los costes totales de los proyectos de IA, con GPU de gama alta que oscilan entre 10.000 y más de 100.000 dólares cada una. Sin embargo, sin una planificación adecuada, los costes operativos, que incluyen la gestión de canalizaciones de datos, la formación de modelos y el mantenimiento continuo, pueden superar entre 3 y 5 veces las inversiones iniciales. El modelo de tres escenarios de McKinsey proyecta inversiones en infraestructura de IA que oscilan entre 3,7 y 7,9 billones de dólares para 2030, con organizaciones que alinean la estrategia, la tecnología y la gestión del cambio, logrando aumentos de capitalización de mercado de hasta 3 veces.

El cambio de los modelos de gasto de capital a los de gasto operativo está reconfigurando las estrategias de implantación. El crecimiento del mercado de GPU como servicio, que ha pasado de 3.230 millones de dólares a 49.840 millones en 2032, refleja el deseo de las empresas de disponer de flexibilidad sin grandes inversiones iniciales. Los proveedores especializados ofrecen una reducción de costes del 80% en comparación con las infraestructuras tradicionales, al tiempo que proporcionan acceso a hardware de última generación. Las estrategias que dan prioridad a la plataforma, ejemplificadas por los cinco objetivos estratégicos de IA de Walmart vinculados directamente a los resultados empresariales, garantizan que las inversiones en tecnología se traduzcan en un valor empresarial cuantificable en lugar de convertirse en costosos experimentos.

Conclusión

La revolución de la infraestructura de IA exige un replanteamiento fundamental del diseño de los centros de datos, las estrategias de implantación y los modelos de asociación. Las innovaciones de NVIDIA GB300 NVL72 para la suavización de la potencia, combinadas con la transformación de la gestión térmica mediante refrigeración líquida, crean posibilidades para la implantación de la IA a escalas antes imposibles. Sin embargo, la tecnología por sí sola no garantiza el éxito: la tasa de fracaso del 85% de los proyectos de IA que alcanzan la fase de producción pone de manifiesto la importancia crítica de la excelencia en la ejecución.

Las organizaciones que triunfan en este nuevo panorama comparten tres características: invierten en estrategias de infraestructura que dan prioridad a la plataforma y permiten una rápida ampliación, se asocian con expertos en despliegue especializados para superar las carencias de talento y ejecución, y se niegan a construir nada que no repercuta directamente en los ingresos o la eficiencia. Nada de proyectos de vanidad, nada de "laboratorios de innovación" que no producen nada. Sólo infraestructuras que generan dinero.

Las redes eléctricas están llegando al límite. Los sistemas de refrigeración están llegando a sus límites físicos. Las empresas que descubran cómo hacer que todas estas piezas funcionen juntas -hardware, refrigeración y despliegue- serán las dueñas de la próxima década. Los demás se quedarán atrás. Las decisiones de infraestructura que se tomen hoy determinarán qué organizaciones pueden aprovechar el potencial transformador de la IA y cuáles se convertirán en espectadores de la revolución.

Referencias

Aethir. "Maximizing ROI: The Business Case for Renting GPUs." Aethir Blog, 2025. https://aethir.com/blog-posts/maximizing-roi-the-business-case-for-renting-gpus. Agility at Scale. "Proving ROI - Measuring the Business Value of Enterprise AI." Agility at Scale, 2025. https://agility-at-scale.com/implementing/roi-of-enterprise-ai/. AI Infrastructure Alliance. "The State of AI Infrastructure at Scale 2024." AI Infrastructure Alliance, 2024. https://ai-infrastructure.org/the-state-of-ai-infrastructure-at-scale-2024/. CIO. "As AI Scales, Infrastructure Challenges Emerge." CIO, 2025. https://www.cio.com/article/3577669/as-ai-scales-infrastructure-challenges-emerge.html. ClearML. "Download the 2024 State of AI Infrastructure Research Report." ClearML Blog, 2024. https://clear.ml/blog/the-state-of-ai-infrastructure-at-scale-2024. Credence Research. "Cloud GPU Market Size, Growth & Forecast to 2032." Credence Research, 2025. https://www.credenceresearch.com/report/cloud-gpu-market. DDN. "Five AI Infrastructure Challenges and Their Solutions." DDN Resources, 2025. https://www.ddn.com/resources/research/artificial-intelligence-success-guide/. Deloitte Insights. "Generating Value from Generative AI." Deloitte, 2025. https://www2.deloitte.com/us/en/insights/topics/digital-transformation/companies-investing-in-ai-to-generate-value.html. Edge AI and Vision Alliance. "The Rise of AI Drives a Ninefold Surge in Liquid Cooling Technology." Edge AI and Vision Alliance, October 2024. https://www.edge-ai-vision.com/2024/10/the-rise-of-ai-drives-a-ninefold-surge-in-liquid-cooling-technology/. Flexential. "State of AI Infrastructure Report 2024." Flexential, 2024. https://www.flexential.com/resources/report/2024-state-ai-infrastructure. Fortune Business Insights. "GPU as a Service Market Size, Growth | Forecast Analysis [2032]." Fortune Business Insights, 2025. https://www.fortunebusinessinsights.com/gpu-as-a-service-market-107797. Gartner. "Gartner Identifies the Top Trends Impacting Infrastructure and Operations for 2025." Gartner Newsroom, December 11, 2024. https://www.gartner.com/en/newsroom/press-releases/2024-12-11-gartner-identifies-the-top-trends-impacting-infrastructure-and-operations-for-2025. GlobeNewswire. "$48.42 Billion Data Center Liquid Cooling Markets 2024-2025 and 2034: Key Growth Drivers Include Advanced Technologies such as Immersion and Direct-to-Chip Cooling." GlobeNewswire, February 5, 2025. https://www.globenewswire.com/news-release/2025/02/05/3021305/0/en/48-42-Billion-Data-Center-Liquid-Cooling-Markets-2024-2025-and-2034.html. Grand View Research. "Data Center GPU Market Size & Share | Industry Report 2033." Grand View Research, 2025. https://www.grandviewresearch.com/industry-analysis/data-center-gpu-market-report. Grand View Research. "GPU As A Service Market Size, Trends | Industry Report 2030." Grand View Research, 2025. https://www.grandviewresearch.com/industry-analysis/gpu-as-a-service-gpuaas-market-report. GR Cooling. "Liquid Immersion Cooling for Data Centers." GR Cooling, 2025. https://www.grcooling.com/. IBM. "What is AI Infrastructure?" IBM Think, 2025. https://www.ibm.com/think/topics/ai-infrastructure. Introl. "GPU Infrastructure, Data Center Solutions & HPC Deployment." Introl Blog, 2025. https://introl.com/blog. Introl. "Introl - GPU Infrastructure & Data Center Deployment Experts." Introl, 2025. https://introl.com. LakeFS. "What Is AI Infrastructure: Benefits & How To Build One." LakeFS Blog, 2025. https://lakefs.io/blog/ai-infrastructure/. MarketsandMarkets. "Data Center GPU Market Size, Share & Trends, 2025 To 2030." MarketsandMarkets, 2025. https://www.marketsandmarkets.com/Market-Reports/data-center-gpu-market-18997435.html. McKinsey & Company. "How Data Centers and the Energy Sector Can Sate AI's Hunger for Power." McKinsey Insights, 2025. https://www.mckinsey.com/industries/private-capital/our-insights/how-data-centers-and-the-energy-sector-can-sate-ais-hunger-for-power. McKinsey & Company. "The Cost of Compute: A $7 Trillion Race to Scale Data Centers." McKinsey Insights, 2025. https://www.mckinsey.com/industries/technology-media-and-telecommunications/our-insights/the-cost-of-compute-a-7-trillion-dollar-race-to-scale-data-centers. NVIDIA. "Designed for AI Reasoning Performance & Efficiency | NVIDIA GB300 NVL72." NVIDIA Data Center, 2025. https://www.nvidia.com/en-us/data-center/gb300-nvl72/. NVIDIA. "GB200 NVL72." NVIDIA Data Center, 2025. https://www.nvidia.com/en-us/data-center/gb200-nvl72/. NVIDIA Developer. "How New GB300 NVL72 Features Provide Steady Power for AI." NVIDIA Technical Blog, 2025. https://developer.nvidia.com/blog/how-new-gb300-nvl72-features-provide-steady-power-for-ai/. NVIDIA Developer. "NVIDIA Blackwell Ultra for the Era of AI Reasoning." NVIDIA Technical Blog, 2025. https://developer.nvidia.com/blog/nvidia-blackwell-ultra-for-the-era-of-ai-reasoning/. Precedence Research. "Data Center GPU Market Size and Growth 2025 to 2034." Precedence Research, 2025. https://www.precedenceresearch.com/data-center-gpu-market. Precedence Research. "GPU as a Service Market Size and Forecast 2025 to 2034." Precedence Research, 2025. https://www.precedenceresearch.com/gpu-as-a-service-market. Supermicro. "Supermicro Solidifies Position as a Leader in Complete Rack Scale Liquid Cooling Solutions -- Currently Shipping Over 100,000 NVIDIA GPUs Per Quarter." Supermicro Press Release, 2025. https://www.supermicro.com/en/pressreleases/supermicro-solidifies-position-leader-complete-rack-scale-liquid-cooling-solutions. Techstack. "Measuring the ROI of AI: Key Metrics and Strategies." Techstack Blog, 2025. https://tech-stack.com/blog/roi-of-ai/. TechTarget. "Liquid Cooling's Moment Comes Courtesy of AI." TechTarget SearchDataCenter, 2025. https://www.techtarget.com/searchdatacenter/feature/Liquid-coolings-moment-comes-courtesy-of-ai. The Register. "AI DC Investment a Gamble as ROI Uncertain, Says McKinsey." The Register, May 1, 2025. https://www.theregister.com/2025/05/01/ai_dc_investment_gamble/. VentureBeat. "5 Ways to Overcome the Barriers of AI Infrastructure Deployments." VentureBeat, 2025. https://venturebeat.com/ai/5-ways-to-overcome-the-barriers-of-ai-infrastructure-deployments/. VentureBeat. "From Pilot to Profit: The Real Path to Scalable, ROI-Positive AI." VentureBeat, 2025. https://venturebeat.com/ai/from-pilot-to-profit-the-real-path-to-scalable-roi-positive-ai/. World Economic Forum. "Why AI Needs Smart Investment Pathways to Ensure a Sustainable Impact." World Economic Forum Stories, June 2025. https://www.weforum.org/stories/2025/06/why-ai-needs-smart-investment-pathways-to-ensure-a-sustainable-impact/.

Anterior
Anterior

Grok 4 acaba de romper el techo de la inteligencia artificial: esto lo cambia todo

Siguiente
Siguiente

Construir centros de datos pensando en la sostenibilidad: Lo que funciona