Guía local de hardware LLM 2025: Precios y especificaciones
El panorama para la implantación local de LLM en agosto de 2025 ofrece múltiples rutas de hardware, desde GPU de consumo hasta soluciones para centros de datos empresariales, con variaciones drásticas de precio y compensaciones de rendimiento que afectan de forma crítica a las decisiones de implantación. El hallazgo más significativo es que las configuraciones duales de RTX 5090 ahora igualan el rendimiento de H100 para los modelos 70B a un 25% del coste, lo que cambia fundamentalmente la economía de la implantación local.
El hardware de consumo ha alcanzado un umbral de rendimiento que hace viables las implantaciones de producción serias. La VRAM de 32 GB de la RTX 5090 permite ejecutar modelos cuantificados de 70 B en una sola GPU, mientras que la M3 Ultra de Apple con 512 GB de memoria unificada puede manejar incluso modelos de 671 B de parámetros con cuantificación. Las opciones para empresas como la B200 ofrecen un rendimiento superior, pero se enfrentan a graves limitaciones de suministro y precios elevados que pueden no justificar la inversión para muchos casos de uso.
Las especificaciones de silicio de Apple transforman la accesibilidad de los grandes modelos.
Precios y configuraciones de memoria del Mac Studio M3 Ultra
El Mac Studio M3 Ultra comienza en 3.999 dólares para la configuración básica de CPU de 28 núcleos con 96 GB de memoria unificada. La opción crítica de 192 GB no está disponible directamente: los usuarios deben seleccionar la configuración de 256 GB por 1.500 dólares más, lo que eleva el total a 5.499 dólares. La configuración máxima de 512 GB añade 2.400 dólares sobre la opción de 256 GB, lo que da como resultado un precio de 9.499 dólares para la configuración de memoria máxima con 1 TB de almacenamiento. Un sistema totalmente al máximo con 512 GB de RAM y 16 TB de almacenamiento alcanza los 14.099 dólares.
El ancho de banda de memoria de 819 GB/s de la M3 Ultra resulta crucial para la inferencia LLM, superando a las arquitecturas tradicionales de CPU+GPU en las que los datos deben atravesar los buses PCIe. El motor neuronal de 32 núcleos ofrece 38 billones de operaciones por segundo, mientras que la compatibilidad con Thunderbolt 5 permite la transferencia de datos a 120 GB/s para posibles configuraciones en clúster.
La agrupación en clúster del Mac Mini M4 ofrece una escalabilidad asequible.
El Mac Mini M4 comienza en sólo 599 dólares para la configuración básica de 10 núcleos con 16 GB de memoria (ampliable a 32 GB). La variante M4 Pro de 1.399 dólares ofrece una memoria base de 24 GB ampliable a 64 GB, con un ancho de banda de memoria de 273 GB/s que mejora significativamente el rendimiento LLM. Las pruebas reales muestran que un solo M4 Pro con 64 GB de RAM ejecuta Qwen 2.5 32B a 11-12 tokens/segundo, suficiente para muchos casos de uso en producción.
Exo Labs demostró la eficacia de la agrupación en clústeres con 4 Mac Mini M4 (599 dólares cada uno) más un MacBook Pro M4 Max, logrando una memoria unificada total de 496 GB por menos de 5.000 dólares. Esta configuración ejecuta Qwen 2.5 Coder-32B a 18 tokens/segundo y Nemotron-70B a ocho tokens/segundo. Sin embargo, los Mac Studios de gama alta suelen superar a los clústeres de Mac Mini gracias a su mayor ancho de banda de memoria y a la menor sobrecarga de comunicación entre dispositivos.
Los precios de las GPU NVIDIA reflejan graves distorsiones del mercado
La RTX 5090 se vende muy cara a pesar de su PVPR de 1.999 dólares
El precio oficial de la RTX 5090 es de 1.999 dólares para la Founders Edition, pero los precios en la calle oscilan entre los 2.500 y los 3.800 dólares para los modelos AIB. La ASUS ROG Astral se vende por 2799,99 $ cuando está disponible, y los modelos personalizados suelen superar los 3000 $. La VRAM GDDR7 de 32 GB de la tarjeta, con un ancho de banda de 1.792 GB/s, permite ejecutar modelos de 70B parámetros con cuantización en una sola GPU.
Las pruebas de rendimiento muestran que la RTX 5090 alcanza 5.841 tokens/segundo en Qwen2.5-Coder-7B (tamaño de lote 8), lo que representa 2,6 veces el rendimiento de una A100 de 80 GB. Para los modelos 70B, las configuraciones RTX 5090 duales alcanzan una tasa de evaluación de 27 tokens/segundo, igualando el rendimiento de la H100 a una fracción del coste. El TDP de 575 W requiere fuentes de alimentación de más de 1200 W y robustas soluciones de refrigeración.
Los precios de las GPU para empresas siguen siendo estratosféricos.
La GPU H200 cuesta entre 40.000 y 55.000 dólares por unidad a través de los socios de canal, con tarifas en la nube de entre 3,72 y 10,60 dólares por hora. Sus 141 GB de memoria HBM3e y 4,8 TB/s de ancho de banda representan un 76% más de memoria y un 43% más de ancho de banda que la H100. El nuevo B200 cuesta entre 30.000 y 35.000 dólares a pesar de ofrecer 192 GB de HBM3e y 8 TB/s de ancho de banda, aunque su disponibilidad sigue siendo muy limitada, con plazos de entrega de 3 a 6 meses.
El B100, que sustituye al H100 con 192 GB de memoria y un TDP de 700 W, tiene un precio similar: entre 30.000 y 35.000 dólares. Según los informes, toda la producción de Blackwell hasta 2025 está agotada, y TSMC ha aumentado los pedidos de 40.000 a 60.000 unidades para satisfacer la demanda.
Los sistemas DGX alcanzan precios de medio millón de dólares
El sistema DGX H200 con 8 GPU y 1.128 GB de memoria cuesta entre 400.000 y 500.000 dólares, mientras que el nuevo DGX B200 cuesta 515.410 dólares en Broadberry. El sistema B200 proporciona 72 PFLOPS FP8 de entrenamiento y 144 PFLOPS FP4 de inferencia, lo que representa una mejora de 3 veces en el entrenamiento y 15 veces en la inferencia con respecto al DGX H100.
El GB200 Superchip, que combina dos GPU B200 con una CPU Grace, cuesta entre 60.000 y 70.000 dólares por unidad. Los sistemas a escala de rack como el GB200 NVL72 con 72 GPU alcanzan los 3 millones de dólares, destinados a implantaciones a hiperescala.
Los requisitos de memoria dictan las estrategias de selección de hardware.
La demanda de memoria de los modelos no cuantificados supera la de la mayoría de los sistemas simples.
Ejecutar modelos de 70B parámetros en precisión FP16 requiere aproximadamente 148 GB de VRAM más un 20% de sobrecarga para activaciones, lo que suma un total de 178 GB. Con un contexto de 128K, la caché KV añade otros 39 GB, lo que eleva los requisitos por encima de los 200 GB, lo que requiere varias GPU (2× H100 de 80 GB o 4× A100 de 40 GB) o una cuantización agresiva.
Los modelos con parámetros 405B exigen 810 GB para el modelo base en FP16, con requisitos totales cercanos a 1 TB, incluidos los gastos generales y la caché KV. Estos modelos requieren despliegues multinodo o cuantificación FP8 en sistemas 8× H100. Los modelos 671B Nemotron y DeepSeek-R1 necesitan entre 1,3 y 1,4 TB en FP16, lo que requiere una infraestructura a escala de centro de datos o una cuantización agresiva a 700 GB en FP8.
La cuantificación transforma la economía del despliegue.
La cuantización GGUF reduce la memoria en 4 veces con Q4_K_M manteniendo una calidad aceptable para la mayoría de los casos de uso. Q5_K_M proporciona una reducción de 3,2x con una degradación mínima. Este formato sobresale en CPU y Apple Silicon, por lo que es ideal para implantaciones periféricas.
AWQ (Activation-aware Weight Quantization) ofrece un ahorro de memoria 4 veces superior a GPTQ, con una mejor conservación de la calidad, y a menudo funciona 2 veces más rápido en las GPU. Resulta especialmente eficaz para modelos ajustados por instrucciones en los que es fundamental mantener la calidad de la respuesta.
La cuantización FP8 en hardware H100/H200/B200 proporciona una reducción de memoria del doble con una pérdida de calidad mínima, ya que muchos de los modelos más recientes se entrenan de forma nativa en FP8, lo que permite ejecutar modelos 405B en nodos únicos de 8 GPU manteniendo un rendimiento de precisión casi total.
Las arquitecturas de implantación varían drásticamente según el caso de uso.
El servicio de atención al cliente prioriza el tiempo de respuesta sobre el tamaño del modelo.
Para aplicaciones de atención al cliente que requieren respuestas en menos de 2 segundos, Llama 3.1 8B en FP16 en una sola GPU A10G o L4 (16 GB de VRAM) proporciona una relación precio-rendimiento óptima. Para respuestas de mayor calidad, Llama 3.1 70B con cuantificación AWQ de 4 bits en GPU duales A100 de 80 GB ofrece un rendimiento de nivel empresarial a 35 GB por GPU utilizada.
vLLM con paralelismo tensorial y procesamiento por lotes continuo maximiza el rendimiento, mientras que el precalentamiento y la gestión agresiva de la caché KV minimizan la latencia del primer token. La mayoría de las implantaciones con éxito aplican un enrutamiento híbrido, enviando el 70% de las consultas a modelos más pequeños y reservando los modelos más grandes para las solicitudes complejas.
La generación de código exige amplias ventanas contextuales.
Las cargas de trabajo de generación de código requieren longitudes de contexto de 32K-128K, lo que eleva considerablemente los requisitos de memoria. Llama 3.1 70B en FP16 en GPUs 4× A100 de 80 GB maneja el contexto completo con 40 GB+ reservados para la caché KV. Los modelos DeepSeek-Coder, entrenados explícitamente para tareas de código, a menudo superan a los modelos generales más grandes.
El paralelismo tensorial de un único nodo con almacenamiento NVMe rápido para la carga de modelos resulta más eficaz. Muchos equipos informan de su éxito con los sistemas Mac Studio M3 Ultra para el desarrollo, aprovechando la memoria unificada de 512 GB para experimentar con modelos más grandes antes de la implantación en producción.
Las aplicaciones de investigación exigen la máxima precisión.
Los despliegues de investigación priorizan la precisión sobre el coste, normalmente ejecutando Llama 3.1 405B en FP8 en sistemas 8× H100 o DeepSeek-R1 671B para tareas de razonamiento avanzado. Estas configuraciones evitan la cuantización agresiva para mantener la reproducibilidad y la máxima capacidad del modelo.
Los requisitos de infraestructura incluyen configuraciones multinodo con interconexiones InfiniBand y refrigeración de nivel empresarial. Muchas instituciones de investigación consideran que los sistemas Apple M3 Ultra son valiosos para la experimentación, ya que la memoria unificada de 512 GB permite cargar modelos que requerirían varias GPU en otros lugares.
La creación de contenidos equilibra la creatividad con la coherencia.
La generación de contenidos suele utilizar Llama 3.1 70B en FP16 para una creatividad y coherencia equilibradas, o Mixtral 8x7B con cuantificación GPTQ de 4 bits para un procesamiento por lotes rentable. El muestreo a mayor temperatura y la ingeniería de avisos diversa fomentan los resultados creativos al tiempo que mantienen la coherencia de la voz de la marca.
La planificación de la capacidad en ráfagas resulta esencial, ya que los flujos de trabajo creativos suelen presentar picos de uso extremos. Muchas implantaciones utilizan arquitecturas basadas en colas que pueden escalar de 1 a más de 10 GPU en función de la demanda.
El coste total de propiedad revela puntos de equilibrio sorprendentes.
Los costes de adquisición de hardware varían enormemente según la clase.
Las GPU de consumo oscilan entre 1.600 y 2.000 dólares para una RTX 4090 y entre 2.000 y 3.800 dólares para una RTX 5090, aunque la disponibilidad sigue siendo problemática. Las GPU para empresas cuestan entre 25.000 y 30.000 dólares las H100 y entre 30.000 y 40.000 dólares las B200. Los sistemas Apple M3 Ultra con configuraciones de memoria significativas cuestan entre 7.000 y 10.000 dólares.
Las instancias en la nube ofrecen disponibilidad inmediata a 0,89 $/hora para RTX 5090, entre 1,90 $ y 3,50 $/hora para H100 y entre 4,00 $ y 6,00 $/hora para sistemas B200. La drástica reducción del precio del H100 desde los más de 8 $/hora de principios de 2025 refleja la mejora de la disponibilidad y la competencia.
Los costes operativos van más allá del hardware.
El consumo energético oscila entre los 215 W de los sistemas Apple M3 Ultra y los 1.000 W de las GPU B200, con unos costes de electricidad de entre 0,10 y 0,30 $/kWh. La refrigeración añade entre un 15 y un 30% de sobrecarga, mientras que la infraestructura de red para configuraciones multi-GPU requiere una conectividad de 10Gbps+. Los costes de personal ascienden a una media de 135.000 dólares anuales para los ingenieros de MLOps, a lo que hay que añadir un 5-15% de cumplimiento de normativas para los sectores regulados.
El punto de equilibrio entre el autoalojamiento y el uso de la API suele producirse en torno a los 2 millones de tokens al día, con una utilización adecuada del hardware por encima del 70%, esencial para la rentabilidad. Una empresa de tecnología financiera redujo los costes en un 83% al pasar de 47.000 $/mes en GPT-4o Mini a 8.000 $/mes con un enfoque híbrido de Claude Haiku más un modelo 7B autoalojado.
Las pruebas de rendimiento revelan los puntos fuertes de la plataforma.
Las últimas velocidades de inferencia favorecen a las arquitecturas más modernas.
La RTX 5090 alcanza 5.841 tokens/segundo en Qwen2.5-Coder-7B, lo que demuestra una mejora del 72% respecto a la RTX 4090 en tareas de PLN. Modelos pequeños como Qwen2-0.5B alcanzan la asombrosa cifra de más de 65.000 tokens/segundo, lo que permite un rendimiento masivo en tareas sencillas.
Los sistemas B200 multiplican por 15 la capacidad de inferencia de los H100, mientras que los H200 duplican la velocidad gracias a su mayor ancho de banda de memoria. Apple M3 Ultra alcanza los 76 tokens/segundo en LLaMA-3 8B Q4_K_M, y se prevé que el próximo M4 Max alcance los 96-100 tokens/segundo.
La elección del marco influye significativamente en el rendimiento.
vLLM 0.6.0 ofrece una mejora del rendimiento de 2,7 veces y una reducción de la latencia de 5 veces en comparación con versiones anteriores, alcanzando los 2.300-2.500 tokens/segundo para Llama 8B en H100. Su PagedAttention reduce la fragmentación de la memoria entre un 60 y un 80%, algo crucial para las implantaciones de producción.
Llama.cpp proporciona entre el 93,6 y el 100,2% del rendimiento de vLLM para solicitudes únicas, al tiempo que ofrece una optimización superior de la CPU y Apple Silicon. Sus amplias opciones de cuantización y su menor sobrecarga de memoria lo hacen ideal para implantaciones de borde.
Las métricas de eficiencia energética mejoran drásticamente.
Los modernos sistemas H100 con vLLM alcanzan 0,39 julios por token para Llama-3.3-70B FP8, lo que representa una eficiencia 120 veces superior a las estimaciones de ChatGPT citadas habitualmente. La RTX 5090 consume un 28% más de energía que la RTX 4090 y ofrece un 72% más de rendimiento, lo que mejora notablemente la eficiencia global.
La cuantización FP8 y FP4 reduce el consumo de energía entre un 30 y un 50 %, manteniendo una calidad aceptable. Las optimizaciones de software a través de vLLM y TensorRT-LLM proporcionan ganancias adicionales de eficiencia, con algunas implementaciones que reportan una mejora de 10x sobre las líneas de base 2023.
Los despliegues multinodo permiten la ejecución de modelos de frontera.
Los requisitos de hardware aumentan exponencialmente con el tamaño del modelo.
Las GPU individuales manejan con eficacia modelos de menos de 80 GB de VRAM. Las configuraciones multi-GPU de nodo único con 2-8 GPU conectadas a través de NVLink funcionan bien hasta 640 GB de VRAM total (8× límite H100). Más allá de este umbral, se hacen necesarias las implementaciones multinodo, lo que introduce una complejidad y una sobrecarga de comunicación significativas.
Para los modelos 70B, 4 Mac Minis M4 pueden proporcionar suficiente memoria mediante agrupación, aunque un único Mac Studio M3 Ultra suele ofrecer mejor rendimiento. Los modelos de 405B requieren siempre un despliegue distribuido en FP16, mientras que los de 671B exigen una infraestructura a escala de centro de datos a menos que se cuantifiquen agresivamente.
Las estrategias de paralelismo optimizan distintos escenarios.
El paralelismo tensorial reparte cada capa entre varias GPU, lo que proporciona baja latencia a través del cálculo paralelo. Este enfoque destaca en nodos individuales donde las interconexiones de gran ancho de banda como NVLink minimizan la sobrecarga de comunicación. Configure con tensor_parallel_size igual a GPUs por nodo para un rendimiento óptimo.
El paralelismo de canalización distribuye las capas contiguas entre nodos, lo que reduce los requisitos de comunicación entre nodos. Aunque esto introduce burbujas de canalización que reducen la eficiencia en la inferencia autorregresiva, permite escalar a través de interconexiones más lentas y admite configuraciones de memoria de GPU desiguales.
El enfoque híbrido empleado por vLLM utiliza el paralelismo tensorial dentro de los nodos y el paralelismo pipeline entre nodos, maximizando tanto el ancho de banda local como la eficiencia entre nodos.
Recomendaciones prácticas para un despliegue inmediato
Para las organizaciones que procesan menos de 1 millón de tokens al día, recomiendo permanecer con proveedores de API mientras se controla el crecimiento del uso. La complejidad y los requisitos de capital del autoalojamiento no justifican el modesto ahorro a esta escala.
Los equipos que manejan entre 1 y 10 millones de fichas al día deberían considerar una única RTX 4090 o RTX 5090 que ejecute modelos cuantificados. Este punto óptimo equilibra la inversión de capital con el ahorro operativo, lo que suele permitir un retorno de la inversión en un plazo de 6 a 12 meses.
Las empresas que procesan más de 10 millones de tokens al día se benefician de configuraciones duales RTX 5090 o instancias en la nube H100 con capacidad reservada. Implemente estrategias de enrutamiento híbrido que envíen consultas sencillas a modelos más pequeños y reserven modelos más grandes para solicitudes complejas, lo que reduce los costes entre un 10 % y un 30 %.
Las organizaciones con requisitos de cumplimiento de normativas deberían dar prioridad a las implantaciones locales de H100/H200 a pesar del sobrecoste, ya que las funciones de control y auditoría justifican el factor de gasto adicional en un 15% de gastos generales para la infraestructura y los procesos relacionados con el cumplimiento de normativas.
Los equipos de investigación y los desarrolladores son los que más se benefician de los sistemas Apple M3 Ultra con 512 GB de RAM, ya que permiten experimentar con modelos que, de otro modo, requerirían costosas configuraciones multi-GPU. Aunque la velocidad de inferencia es inferior a la de las soluciones NVIDIA, la arquitectura de memoria unificada ofrece ventajas únicas para el desarrollo y la comprobación de modelos.
Referencias
Documentación del modelo básico
DeepSeek AI. "DeepSeek-V3 Technical Report", arXiv preprint, diciembre de 2024. https://arxiv.org/html/2412.19437v1.
Meta. "El rebaño Llama 4: El comienzo de una nueva era de innovación en IA multimodal nativa". Meta AI Blog, abril de 2025. https://ai.meta.com/blog/llama-4-multimodal-intelligence/.
Desarrolladores de Google. "Presentamos Gemma 3: La guía del desarrollador". Blog de desarrolladores de Google, 2025. https://developers.googleblog.com/en/introducing-gemma3/.
Alibaba Cloud. "Qwen3: Piensa más a fondo, actúa más rápido". Qwen (blog). Consultado el 13 de agosto de 2025. https://qwenlm.github.io/blog/qwen3/.
Hardware e infraestructura
NVIDIA. "DGX H200". Centro de datos de NVIDIA. Consultado el 13 de agosto de 2025. https://www.nvidia.com/en-us/data-center/dgx-h200/.
Desarrollador de NVIDIA. "NVIDIA Blackwell Platform establece nuevos récords de inferencia LLM en MLPerf Inference v4.1". Blog técnico de NVIDIA, 2025. https://developer.nvidia.com/blog/nvidia-blackwell-platform-sets-new-llm-inference-records-in-mlperf-inference-v4-1/.
Estrategias creativas. "Apple Mac Studio con M3 Ultra: La estación de trabajo definitiva para desarrolladores de IA". Creative Strategies, 2025. https://creativestrategies.com/mac-studio-m3-ultra-ai-workstation-review/.
Marcos de servicio
vLLM. "vLLM V1: A Major Upgrade to vLLM's Core Architecture", vLLM Blog, 27 de enero de 2025. https://blog.vllm.ai/2025/01/27/v1-alpha-release.html.
NVIDIA. "TensorRT-LLM". Repositorio GitHub. GitHub, 2025. https://github.com/NVIDIA/TensorRT-LLM.
Cara de abrazo. "Introduciendo el soporte Multi-Backends (TRT-LLM, vLLM) para la inferencia de generación de texto". Blog de Hugging Face, 2025. https://huggingface.co/blog/tgi-multi-backend.
Análisis de mercado y estudios de casos
Menlo Ventures. "2025 Mid-Year LLM Market Update: Foundation Model Landscape + Economics". Menlo Ventures, 2025. https://menlovc.com/perspective/2025-mid-year-llm-market-update/.
ZenML. "LLMOps en producción: 457 Casos prácticos de lo que realmente funciona". Blog ZenML, 2025. https://www.zenml.io/blog/llmops-in-production-457-case-studies-of-what-actually-works.
Guías de aplicación
Red Hat. "Razonamiento listo para el despliegue con modelos cuantificados de DeepSeek-R1". Red Hat Developer, marzo de 2025. https://developers.redhat.com/articles/2025/03/03/deployment-ready-reasoning-quantized-deepseek-r1-models.
Yermagambet, Rasul. "Monitorización de clústeres multinodo para formación LLM con Prometheus y Grafana". Medium, 2025. https://medium.com/@rasul.yermagambet/monitoring-multi-node-clusters-for-llm-training-with-prometheus-and-grafana-bea82da7f1db.
La nueva pila. "Introducción a vLLM: Un motor de servicio LLM de alto rendimiento". The New Stack, 2025. https://thenewstack.io/introduction-to-vllm-a-high-performance-llm-serving-engine/.