Cómo Isambard-AI desplegó 5.448 GPU en 4 meses: El nuevo plan para la infraestructura de IA
Entre en un almacén reconvertido del Centro Nacional de Materiales Compuestos de Bristol y encontrará 150 toneladas de hardware informático de vanguardia zumbando detrás de armarios refrigerados por líquido: Isambard-AI, el superordenador de inteligencia artificial más potente del Reino Unido. Por supuesto, los titulares celebran sus 21 exaflops de rendimiento de inteligencia artificial, pero esto es lo que se pierden: los extraordinarios retos de infraestructura que superó el equipo para poner en marcha este proyecto de 225 millones de libras en sólo 24 meses. ¿Hace cinco años? Un plazo imposible.
El despliegue de los 5.448 superchips NVIDIA Grace Hopper de Isambard-AI revela un avance significativo. El éxito en la computación de IA depende ahora de algo más que la compra de GPU. Es necesario dominar el complejo ecosistema de alimentación, refrigeración, redes y logística que exige la moderna infraestructura de IA. Las organizaciones que planean implantar GPU a gran escala deben comprender mejor estos retos y los conocimientos especializados necesarios para superarlos.
Cuando 5 megavatios se juntan con 150 toneladas de silicio
La escala de Isambard-AI rompe con la mentalidad tradicional de los centros de datos. Cada uno de sus 12 armarios HPE Cray EX4000 alberga 440 GPU, lo que genera densidades de calor que fundirían los sistemas convencionales. La refrigeración por aire tradicional tiene dificultades para superar los 20 kW por rack. ¿Isambard-AI? Más de 400 kW por armario. La solución era la refrigeración líquida directa al 100%, pero su implantación requería conocimientos totalmente nuevos.
"Lo que estamos viendo con implantaciones como la de Isambard-AI es un cambio fundamental en lo que constituye la experiencia en centros de datos", revela el panorama de la implantación de infraestructuras. Las empresas que solían centrarse en las operaciones tradicionales de rack y pila ahora necesitan ingenieros que entiendan la dinámica de la refrigeración líquida, la gestión del cableado de alta densidad y cómo poner en marcha miles de GPU simultáneamente". El equipo de la Universidad de Bristol trabajó con socios de implantación especializados para instalar más de 40.000 conexiones de fibra óptica. Eso es cableado suficiente para rodear una ciudad pequeña. Y tuvieron que mantener la precisión necesaria para las interconexiones NVLink de 5ª generación del sistema, que funcionan a 1,8 TB/s.
Lo mejor es que el proyecto pasó de la firma del contrato al estado operativo en menos de cuatro meses. ¿Cómo? Ahora, las empresas especializadas en el despliegue de infraestructuras de GPU pueden movilizar a cientos de técnicos cualificados en menos de 72 horas. No se trata de los tradicionales contratistas de TI. Son equipos especializados que conocen las especificaciones de par de apriete para las conexiones de refrigeración líquida y la secuencia óptima para poner en línea miles de GPU sin sobrecargar los sistemas de alimentación.
La complejidad oculta de las infraestructuras centradas en la IA
Los superordenadores tradicionales se adaptan a las cargas de trabajo de la IA. Isambard-AI se diseñó desde cero para aplicaciones de inteligencia artificial. Su enfoque centrado en la IA influyó en todas las decisiones de infraestructura. El equipo eligió el diseño de centro de datos modular de HPE y lo montó in situ en solo 48 horas. Seleccionaron una fuente de alimentación con cero emisiones de carbono que se alinea con el 4.º puesto de la clasificación mundial de eficiencia energética del sistema.
La infraestructura de red por sí sola representa una enorme hazaña de coordinación de ingeniería. La red HPE Slingshot 11 del sistema proporciona 25,6 Tb/s de ancho de banda bidireccional a través de 64 puertos, y cada nodo recibe 800 Gbps de ancho de banda de inyección de red. La instalación y validación de esta compleja red de conexiones requirió conocimientos especializados en redes de alto rendimiento que van mucho más allá de las típicas implantaciones empresariales. Los especialistas en infraestructuras de GPU modernas necesitan comprender la capa física Y cómo afectan las diferentes topologías de interconexión al rendimiento de las cargas de trabajo de IA.
El suministro eléctrico planteó retos únicos. Aunque la potencia total de las instalaciones de Isambard-AI, de 5 MW, pueda parecer modesta en comparación con los centros de datos a hiperescala, la densidad y el carácter crítico de este suministro de energía crearon requisitos únicos. Cada Grace Hopper Superchip requiere un suministro eléctrico preciso. Con 5.448 de ellos funcionando en concierto, incluso pequeñas fluctuaciones podrían causar inestabilidad en el sistema. El equipo de despliegue implementó sofisticados sistemas de gestión de energía con capacidades de monitorización en tiempo real que podían detectar y responder a anomalías en milisegundos.
Aprender de la carrera europea por las infraestructuras de IA
El despliegue de Isambard-AI se produjo mientras las naciones europeas competían intensamente por la supremacía de la IA. El sistema LUMI de Finlandia ofrece 380 petaflops de potencia de cálculo tradicional. El próximo superordenador Júpiter de Alemania promete ser el primer sistema de exaescala de Europa. Sin embargo, Isambard-AI alcanzó el estado operativo más rápido que cualquiera de sus homólogos europeos. Pasó de la propuesta inicial al funcionamiento completo en menos de dos años. Compárese con el plazo típico de 4-5 años para sistemas comparables.
Esta ventaja de velocidad se debe en parte a la agilización de los procesos de adquisición en el Reino Unido tras el Brexit. Pero, lo que es más importante, se debe a la evolución de las metodologías de despliegue de GPU. Las instalaciones tradicionales de superordenadores seguían fases secuenciales: infraestructura, hardware, redes y software. Las modernas instalaciones de GPU aprovechan los flujos de trabajo paralelos. Equipos especializados trabajan simultáneamente en la instalación de la refrigeración líquida, la puesta en marcha de la GPU y la configuración de la red, lo que reduce drásticamente los plazos.
El contraste con otros despliegues europeos enseña valiosas lecciones. El MareNostrum 5 español, a pesar de sus impresionantes especificaciones, requirió una amplia adaptación de las instalaciones existentes. El sistema Leonardo de Italia sufrió retrasos en la integración de sus capacidades de aceleración de IA. El éxito de Isambard-AI demuestra que una infraestructura de IA creada específicamente y desplegada por equipos con experiencia específica en GPU puede acelerar la obtención de resultados científicos más que los sistemas HPC modernizados.
La falta de conocimientos amenaza las ambiciones de la IA
Organizaciones de todo el mundo se apresuran a desplegar infraestructuras de IA, pero ha surgido una brecha crítica en las competencias. Los técnicos tradicionales de los centros de datos, por muy experimentados que sean, a menudo carecen de los conocimientos especializados necesarios para las modernas implantaciones de GPU. Los sistemas de refrigeración líquida requieren conocimientos de dinámica de fluidos y gestión térmica. Las configuraciones de GPU de alta densidad exigen conocimientos sobre suministro de energía y optimización del flujo de aire que van más allá de las implantaciones de servidores convencionales.
Esta falta de conocimientos es más acusada en varias áreas. La gestión del cableado de los clusters de GPU se ha convertido en una disciplina especializada. Los miles de conexiones de alta velocidad de Isambard-AI requieren un enrutamiento preciso para mantener la integridad de la señal y permitir al mismo tiempo el acceso para tareas de mantenimiento. Los técnicos de alimentación y refrigeración tienen que entender no sólo los requisitos de estado estacionario, sino también el comportamiento dinámico de las cargas de trabajo de IA, que pueden pasar de inactividad a plena potencia en milisegundos.
Empresas como introl.com han surgido para llenar este vacío, desarrollando equipos especializados que combinan los conocimientos tradicionales de los centros de datos con la experiencia específica en GPU. Sus despliegues de sistemas que superan los 1.000 nodos de GPU demuestran la escala a la que opera este nuevo tipo de especialista en infraestructuras. La capacidad de movilizar a 40 técnicos en el plazo de una semana, como se ha visto en las recientes implantaciones de grandes proveedores de GPU en la nube, representa una nueva capacidad operativa que no existía en la industria tradicional de los centros de datos.
Más allá del despliegue: mantener la excelencia de la infraestructura de IA
Los retos no terminan cuando se enciende la última GPU. El mantenimiento de un sistema como Isambard-AI requiere una optimización continua y una gestión proactiva. El equipo de la Universidad de Bristol ha implementado sofisticados sistemas de monitorización que controlan desde los patrones de utilización de las GPU hasta el caudal de refrigerante. Con 850 GB de espacio de direcciones de memoria unificada por nodo, incluso las pequeñas ineficiencias pueden afectar significativamente a la productividad de la investigación.
La moderna infraestructura de GPU exige un enfoque DevOps de los sistemas físicos. Los equipos de ingeniería deben orquestar cuidadosamente las actualizaciones de firmware en miles de dispositivos. Los sistemas de refrigeración requieren un mantenimiento predictivo basado en los patrones de uso y las condiciones ambientales. Las configuraciones de red necesitan un ajuste continuo para optimizar los patrones de carga de trabajo en evolución. Esta complejidad operativa impulsa el desarrollo de modelos de servicios especializados en los que los socios de infraestructuras proporcionan una optimización continua en lugar de un despliegue único.
Las implicaciones económicas golpean con fuerza. Cada Grace Hopper Superchip representa una importante inversión de capital. El tiempo de inactividad repercute directamente en el retorno de la inversión. Las organizaciones que despliegan grandes clusters de GPU dependen cada vez más de partners que puedan proporcionarles no sólo la instalación, sino también servicios de optimización continua. La capacidad de mantener tasas de utilización superiores al 95%, como pretenden las principales implantaciones de infraestructuras de IA, requiere una atención constante a la programación de las cargas de trabajo, la asignación de recursos y el estado del sistema.
Trazar el futuro de la infraestructura de IA
El éxito del despliegue de Isambard-AI ofrece lecciones cruciales para las organizaciones que planean sus propias iniciativas de infraestructura de IA. En primer lugar, la era de tratar las GPU como simples componentes de servidor ha llegado a su fin. Los sistemas de IA modernos requieren un planteamiento holístico de la alimentación, la refrigeración, las redes y las operaciones desde las primeras fases de planificación. En segundo lugar, los reducidos plazos de Isambard-AI (de la concepción a la puesta en marcha en menos de dos años) se están convirtiendo en el nuevo estándar, pero sólo para las organizaciones que se asocian con equipos de implantación especializados.
De cara al futuro, los retos de infraestructura no harán sino intensificarse. La arquitectura Blackwell de NVIDIA promete densidades de alimentación aún mayores, con algunas configuraciones que superarán los 1.000 W por GPU. La refrigeración líquida pasará de ser una opción avanzada a una necesidad absoluta. Los requisitos de ancho de banda de red seguirán creciendo exponencialmente a medida que el tamaño de los modelos se acerque a los 10 billones de parámetros. Las organizaciones que carezcan de acceso a una infraestructura de GPU especializada se verán cada vez más incapaces de competir en la revolución de la IA.
La inversión del Reino Unido en Isambard-AI representa algo más que un logro técnico. Es un modelo de cómo las naciones y las organizaciones pueden desplegar rápidamente una infraestructura de IA de categoría mundial. Mediante la combinación de instalaciones construidas específicamente, procesos de adquisición racionalizados y asociaciones con equipos de despliegue especializados, el proyecto demuestra que los retos de infraestructura de la era de la IA, aunque formidables, están lejos de ser insuperables. Para quienes estén dispuestos a invertir en la experiencia y las asociaciones adecuadas, el camino desde la ambición hasta la supercomputación operativa de la IA nunca ha sido tan sencillo.
Universidades, empresas y gobiernos de todo el mundo contemplan sus propias inversiones en infraestructuras de IA. Isambard-AI es la prueba de que, con el enfoque y los socios adecuados, incluso las implantaciones de GPU más ambiciosas pueden pasar de la propuesta a la producción a la velocidad de la innovación. La cuestión ya no es si construir o no una infraestructura de IA, sino si se tiene acceso a los conocimientos especializados necesarios para hacerlo bien.
Referencias
Alliance Chemical. "La revolución de la refrigeración de GPU de AI: Agua desionizada, etilenglicol y propileno". Alliance Chemical. Consultado el 1 de agosto de 2025. https://alliancechemical.com/blogs/articles/ai-gpu-cooling-revolution-deionized-water-ethylene-glycol-propylene-glycol-the-ultimate-liquid-cooling-guide.
Computer Weekly. "Bristol pone en marcha un superordenador de IA en el Reino Unido". Computer Weekly, 2025. https://www.computerweekly.com/news/366584173/Bristol-goes-live-with-UK-AI-supercomputer.
Computer Weekly. "El gobierno británico promete 225 millones de libras para financiar la construcción del superordenador de IA de la Universidad de Bristol con HPE". Computer Weekly, noviembre de 2023. https://www.computerweekly.com/news/366558036/UK-government-pledges-225m-to-fund-University-of-Bristol-AI-supercomputer-build-with-HPE.
Conocimientos sobre centros de datos. "Refrigeración líquida directa al chip: Optimizando la eficiencia del centro de datos". Data Center Knowledge. Consultado el 1 de agosto de 2025. https://www.datacenterknowledge.com/cooling/direct-to-chip-liquid-cooling-optimizing-data-center-efficiency.
Empresa Común EuroHPC. "Inauguración de MareNostrum 5: Europa da la bienvenida a un nuevo superordenador de categoría mundial". 21 de diciembre de 2023. https://www.eurohpc-ju.europa.eu/inauguration-marenostrum-5-europe-welcomes-new-world-class-supercomputer-2023-12-21_en.
Empresa Común EuroHPC. "MareNostrum5: un nuevo superordenador EuroHPC de clase mundial en España". 16 de junio de 2022. https://eurohpc-ju.europa.eu/marenostrum5-new-eurohpc-world-class-supercomputer-spain-2022-06-16_en.
Forschungszentrum Jülich. "Panorama técnico de JUPITER". Consultado el 1 de agosto de 2025. https://www.fz-juelich.de/en/ias/jsc/jupiter/tech.
GOV.UK. "Sovereign AI AIRR launch opportunity: convocatoria de investigadores". Consultado el 1 de agosto de 2025. https://www.gov.uk/government/publications/sovereign-ai-airr-launch-opportunity-call-for-researchers/sovereign-ai-airr-launch-opportunity-call-for-researchers.
Hewlett-Packard Enterprise. "El Gobierno británico invierte 225 millones de libras para crear el superordenador de IA más potente del Reino Unido con la Universidad de Bristol y Hewlett Packard Enterprise". Comunicado de prensa, noviembre de 2023. https://www.hpe.com/us/en/newsroom/press-release/2023/11/uk-government-invests-225m-to-create-uks-most-powerful-ai-supercomputer-with-university-of-bristol-and-hewlett-packard-enterprise.html.
HPCwire. "La Universidad de Bristol acogerá el superordenador Isambard-AI, marcando una nueva era en IA y HPC". HPCwire. Consultado el 1 de agosto de 2025. https://www.hpcwire.com/off-the-wire/university-of-bristol-to-host-isambard-ai-supercomputer-marking-a-new-era-in-ai-and-hpc/.
Hyperstack. "Todo sobre las GPU NVIDIA Blackwell: Arquitectura, características y especificaciones del chip". Consultado el 1 de agosto de 2025. https://www.hyperstack.cloud/blog/thought-leadership/everything-you-need-to-know-about-the-nvidia-blackwell-gpus.
IBM. "Introl Solutions, LLC". Directorio IBM PartnerPlus. Consultado el 1 de agosto de 2025. https://www.ibm.com/partnerplus/directory/company/9695.
Introl. "Implantaciones de infraestructura de GPU | Optimice sus implantaciones de GPU". Consultado el 1 de agosto de 2025. https://introl.com/gpu-infrastructure-deployments.
Introl. "Introl - Expertos en infraestructura de GPU y despliegue de centros de datos". Consultado el 1 de agosto de 2025. https://introl.com.
Introl. "Introl | Infraestructura de GPU, soluciones para centros de datos e implantación de HPC". Consultado el 1 de agosto de 2025. https://introl.com/blog.
IT Pro. "Isambard-AI por dentro: el superordenador más potente del Reino Unido". IT Pro. Consultado el 1 de agosto de 2025. https://www.itpro.com/infrastructure/inside-isambard-ai-the-uks-most-powerful-supercomputer.
IT4Innovations. "LUMI". Consultado el 1 de agosto de 2025. https://www.it4i.cz/en/infrastructure/lumi.
Jetcool. "¿Qué es la refrigeración líquida directa para centros de datos de IA?". Consultado el 1 de agosto de 2025. https://jetcool.com/post/what-is-direct-liquid-cooling-for-ai-data-centers/.
NVIDIA. "NVLink y NVSwitch para comunicación multi-GPU avanzada". Consultado el 1 de agosto de 2025. https://www.nvidia.com/en-us/data-center/nvlink/.
NVIDIA. "El motor detrás de las fábricas de IA | Arquitectura NVIDIA Blackwell". Consultado el 1 de agosto de 2025. https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/.
Blog de NVIDIA. "La plataforma Blackwell de NVIDIA multiplica por 300 la eficiencia del agua". Consultado el 1 de agosto de 2025. https://blogs.nvidia.com/blog/blackwell-platform-water-efficiency-liquid-cooling-data-centers-ai-factories/.
ResearchGate. "Isambard-AI: un superordenador de clase líder optimizado específicamente para la Inteligencia Artificial". Octubre de 2024. https://www.researchgate.net/publication/384938455_Isambard-AI_a_leadership_class_supercomputer_optimised_specifically_for_Artificial_Intelligence.
SDxCentral. "Lanzamiento oficial del superordenador británico Isambard-AI de 300 millones de dólares". SDxCentral. Consultado el 1 de agosto de 2025. https://www.sdxcentral.com/news/uks-300m-isambard-ai-supercomputer-officially-launches/.
TechTarget. "El momento de la refrigeración líquida llega por cortesía de la IA". TechTarget. Consultado el 1 de agosto de 2025. https://www.techtarget.com/searchdatacenter/feature/Liquid-coolings-moment-comes-courtesy-of-AI.
El Ingeniero. "El superordenador Isambard AI se pone en marcha en Bristol". The Engineer. Consultado el 1 de agosto de 2025. https://www.theengineer.co.uk/content/news/isambard-ai-supercomputer-launches-in-bristol/.
Investigación e innovación en el Reino Unido. "300 millones de libras para poner en marcha la primera fase del nuevo recurso de investigación sobre IA". Consultado el 1 de agosto de 2025. https://www.ukri.org/news/300-million-to-launch-first-phase-of-new-ai-research-resource/.
Universidad de Bristol. "2023: Isambard AI Bristol". Instituto Cabot para el Medio Ambiente. Consultado el 1 de agosto de 2025. https://www.bristol.ac.uk/cabot/news/2023/isambard-ai-bristol.html.
Universidad de Bristol. "Julio: El superordenador más potente del Reino Unido se pone en marcha en Bristol". Noticias y reportajes, julio de 2025. https://www.bristol.ac.uk/news/2025/july/isambard-launch.html.
Universidad de Bristol. "Noviembre: Inversión sin precedentes de 225 millones de libras para crear el superordenador más potente del Reino Unido". Noticias y reportajes, noviembre de 2023. https://www.bristol.ac.uk/news/2023/november/supercomputer-announcement.html.
Wikipedia. "Blackwell (microarquitectura)". Consultado el 1 de agosto de 2025. https://en.wikipedia.org/wiki/Blackwell_(microarquitectura).
Wikipedia. "LUMI". Consultado el 1 de agosto de 2025. https://en.wikipedia.org/wiki/LUMI.
"Isambard-AI: un superordenador de clase líder optimizado específicamente para la Inteligencia Artificial". arXiv preprint arXiv:2410.11199 (2024). http://arxiv.org/pdf/2410.11199.