Grok 4 acaba de romper el techo de la inteligencia artificial: esto lo cambia todo

1 de agosto

Presentamos Grok 4, el modelo de inteligencia artificial más potente del mundo. Vea la retransmisión en directo: https://t.co/59iDX5s2ck
- xAI (@xai) 10 de julio de 2025

Pues bien, la cosa ha ido a más. Hace tres semanas, Elon Musk y xAI lanzaron Grok 4 a un mundo desprevenido, y los puntos de referencia siguen haciendo dudar a los investigadores experimentados en IA. Imagínate una IA que razona los problemas como un equipo de doctores con cafeína en una tormenta de ideas a las 3 de la mañana. Ahora que el revuelo inicial se ha calmado y los desarrolladores han puesto a prueba a Grok 4, permítanme explicarles por qué este modelo representa algo más que otra versión: es un atisbo de un futuro en el que la IA se convierte en un verdadero socio intelectual.

https://x.com/xai/status/1943158495588815072

El lanzamiento que rompió Internet (y algunos récords)

xAI dio a conocer Grok 4 el 9 de julio de 2025, a través de una retransmisión en directo que atrajo a 1,5 millones de espectadores, nada mal para una presentación técnica nocturna¹. El momento fue... interesante, ya que se produjo justo un día después de que Grok 3 apareciera en los titulares por todas las razones equivocadas con algunos resultados controvertidos².

Musk presentó dos variantes: Grok 4 estándar y Grok 4 Heavy, esta última con múltiples agentes de inteligencia artificial que comprueban el trabajo de los demás como si se tratara de un grupo de estudio en el que todo el mundo lee.³ El acceso se realiza a través de la aplicación Grok, el sitio web o la API, mientras que Heavy es exclusivo para los suscriptores de SuperGrok Heavy por 300 dólares al mes, un precio que dice "esto va en serio"⁴ Para los curiosos: https://x.ai/grok para acceso general, https://x.ai/api para desarrolladores.

Funciones que hacen que otras IA parezcan calculadoras

Grok 4 incluye una ventana contextual de 256.000 tokens (lo que equivale aproximadamente al texto de una novela que puede procesar a la vez), análisis de imágenes, llamadas a funciones y modos de voz tan naturales que podrías olvidar que estás hablando con silicio.⁵ Pero aquí es donde se pone picante: el uso de herramientas nativas. xAI entrenó a esta bestia con aprendizaje por refuerzo para que manejara un intérprete de código y extensiones de su mente similares a un navegador web.

La búsqueda en tiempo real en X, la web y las noticias mantiene las respuestas actualizadas, se acabaron las excusas de "mis conocimientos se han agotado". Las funciones multimodales permiten combinar a la perfección el análisis de texto y de visión, mientras que el modo de voz añade el análisis de escenas a través de la cámara: SOC 2 Tipo 2, GDPR y CCPA están todas marcadas. Es como tener un asistente de investigación ingenioso que nunca duerme, nunca se queja de las horas extras y entiende tu terrible letra.

La salsa secreta: Cuando la fuerza bruta se une a la delicadeza

Detrás de la magia de Grok 4 se encuentra el superordenador Colossus de xAI, un monstruo de 200.000 GPU que hace que la mayoría de los centros de datos parezcan calculadoras de bolsillo.⁷ Pero la potencia bruta no lo dice todo. xAI revolucionó su enfoque escalando el aprendizaje por refuerzo para igualar el cálculo previo al entrenamiento, centrándose en datos verificables de dominios matemáticos, de codificación y científicos, lo que multiplicó por 6 la eficiencia, transformando el músculo computacional en inteligencia refinada.⁸

¿La verdadera innovación? Grok 4 Heavy lleva el enfoque más allá con la computación paralela en tiempo de prueba: varios agentes de IA abordan problemas simultáneamente antes de comparar notas. Imagine pasar de ser un inventor de garaje en solitario a una orquesta sincronizada de premios Nobel, cada uno de los cuales comprueba el trabajo de los demás.

La realidad de las infraestructuras

El superordenador Colossus tiene 200.000 GPUs, que es... No puedo ni imaginarme esa cifra. La mayoría de las empresas están encantadas cuando consiguen que un clúster con unos cientos de GPU funcione sin problemas. ¿Pero 200.000? Sólo la producción de calor sería como hacer funcionar una pequeña central eléctrica.

Y eso antes de pensar en conectarlos adecuadamente, mantenerlos alimentados con datos, asegurarte de que la red eléctrica no se te va de las manos .... Cada detalle es importante: la disposición de los bastidores, el tipo de refrigeración que se utiliza (y sí, se necesita mucha refrigeración porque estas cosas se CALENTAN), además de todas las pesadillas de redes y distribución de energía que conllevan. Si te equivocas en cualquiera de las piezas de este rompecabezas, estarás gastando dinero en hardware de bajo rendimiento. Las empresas que quieren construir su propia infraestructura de IA, ya sean 10 GPU o 10.000.000, necesitan experiencia en todo, desde la distribución de energía hasta las intrincadas conexiones de fibra óptica que mantienen los datos fluyendo a la velocidad de la luz. Este es el punto en el que el despliegue de una infraestructura profesional marca la diferencia entre las especificaciones teóricas y el rendimiento en el mundo real. Como el equipo de Introl sabe por haber desplegado innumerables clústeres de IA, el diablo está realmente en los detalles: una infraestructura adecuada puede suponer la diferencia entre unas GPU que funcionen con un 95% de eficiencia o que dejen sobre la mesa un 30% de su rendimiento.

Números que hacen llorar de alegría a los estadísticos

Analicemos las pruebas de referencia que han hecho vibrar a la comunidad de la IA. En la prueba ARC-AGI-2, notoriamente brutal, en la que los modelos deben demostrar razonamiento abstracto con ejemplos mínimos, Grok 4 (modo Pensamiento) reclama el trono con un 15,9% a unos 4 dólares por tarea.¹⁰ Eso casi duplica el 8,6% de Claude Opus 4, y antes de que te burles de "solo un 15,9%", recuerda que la mayoría de los modelos luchan por superar el 5% en esta prueba.¹¹ Es como ver a alguien resolver cubos de Rubik con los ojos vendados mientras los demás siguen averiguando qué lado es rojo.

Los experimentos de escalado revelan algo fascinante. Sólo con el cálculo de entrenamiento, Grok 4 alcanza alrededor del 50% en Humanity's Last Exam (subconjunto de sólo texto). Si se añaden herramientas, el resultado se dispara hasta el 50,7%¹². El escalado en tiempo de prueba se estabiliza cerca del 50%, lo que demuestra que las estrategias de inferencia más innovadoras, y no solo el hecho de dedicar más cálculo a los problemas, impulsan los avances.

En el examen AIME25 (American Invitational Mathematics Examination), Grok 4 Heavy alcanza un perfecto 100%, dejando en la cuneta a Claude 4 Opus (75,5%) y Gemini 2.5 Pro (88,0%).¹³ Incluso sin herramientas, Grok 4 estándar obtiene una puntuación del 91,7%, es decir, mejor que la mayoría de los participantes humanos en competiciones matemáticas.

Pero aquí está el plato fuerte: El último examen de la humanidad (juego completo). Las más de 2500 preguntas de STEM y humanidades separan la memorización del razonamiento genuino.¹⁴ Grok 4 Heavy obtiene un 44,4%, casi el doble que Gemini 2.5 Pro con un 25,4% y más del doble que o3 con un 21,0%.¹⁵ Cuando tu IA supera a otras por tales márgenes, no estás iterando, estás revolucionando.

Rendimiento real que importa

Más allá de las pruebas académicas, Grok 4 domina las pruebas prácticas. En Vending-Bench (sí, es una prueba real sobre la optimización de las operaciones de las máquinas expendedoras), alcanza un valor neto de 4.694 dólares con 4.569 unidades vendidas, más del doble que Claude Opus 4 con 2.077 dólares y quintuplica el rendimiento humano con 844 dólares.¹⁶

Victorias adicionales: USAMO'25 (61,9%), GPQA Diamond (88%), LiveCodeBench (79,4%) y MMLU-Pro (87%).¹⁷ Los evaluadores independientes de Artificial Analysis coronan a Grok 4 con un 73 en su Índice de Inteligencia, superando a o3 de OpenAI y a Gemini 2.5 Pro de Google (ambos con 70).¹⁸ No está nada mal para un modelo que apareció hace apenas tres semanas.

El veredicto de la comunidad: entusiasmados, escépticos y todo lo demás

Desde su lanzamiento, X (antes Twitter) se ha convertido en un campo de pruebas de las capacidades de Grok 4. Los desarrolladores afirman haber pegado bases de código enteras para depurarlas, con resultados que superan a herramientas especializadas como Cursor.¹⁹ Un usuario lo calificó como "lo más parecido a una inteligencia artificial hasta la fecha", mientras que los científicos consultan problemas de materiales sin resolver y reciben nuevas ideas que se comprueban.²⁰ Después de tres semanas de uso en el mundo real, han surgido patrones: el modelo destaca en tareas de razonamiento complejas, pero muestra peculiaridades interesantes en aplicaciones creativas.

Pero no todo son ovaciones. Los usuarios observan limitaciones de velocidad a 75 tokens/segundo (respetable pero no fulgurante), y la moderación de contenidos sigue siendo mínima: Grok 4 está menos filtrado que sus competidores, lo que suscita debates sobre la neutralidad de la IA frente a la seguridad.²¹ Algunos aprecian las respuestas crudas y sin rodeos; otros se preocupan por el posible uso indebido. Democracia en acción, amigos.

Lo que esto significa para mañana (Spoiler: todo cambia)

Aquí es donde mi optimismo se dispara. Grok 4 trasciende la categoría de chatbot: es un anticipo de la IA como socio intelectual. Cuando una IA obtenga resultados de nivel doctoral en concursos de matemáticas y ayude a los científicos a explorar problemas sin resolver, estaremos asistiendo a los albores del descubrimiento aumentado.

Para la ciencia: Imagine investigadores de todo el mundo con acceso a una IA que comprenda de verdad las matemáticas complejas y pueda proponer hipótesis novedosas. Descubrimiento de fármacos, modelización del clima y ciencia de los materiales, todo ello acelerado.

Para la ingeniería: Más allá de la depuración, hablamos de una IA que comprende las arquitecturas de los sistemas y puede sugerir optimizaciones que los humanos nunca considerarían. Es como tener a Dijkstra y Turing en marcación rápida.

Para la Educación: Tutoría personalizada que se adapta no sólo a lo que los alumnos hacen mal, sino a cómo piensan. Cada alumno recibe un tutor paciente y brillante adaptado a su estilo cognitivo.

Para empresas: Desde la planificación estratégica hasta el análisis de mercado, las capacidades de razonamiento de Grok 4 podrían transformar la toma de decisiones de sensaciones viscerales a percepciones basadas en datos con una comprensión matizada.

Advertencias (porque la sinceridad es mejor que la exageración)

Seamos realistas: ninguna IA es perfecta, y Grok 4 tiene margen para crecer. La velocidad de 75 tokens/segundo no ganará ninguna carrera contra servidores de inferencia especializados. Las alucinaciones, aunque reducidas, no han desaparecido del todo (un reto para toda la industria). El mínimo filtrado de contenidos suscita preocupaciones válidas sobre el potencial de uso indebido.

Mira, xAI no nos ha dicho nada sobre sus datos de entrenamiento, y eso... no es bueno. Todos sabemos cómo va esto: los sesgos de los datos se amplifican cuando escalas tanto. Todo el mundo en la IA está observando xAI como halcones en este momento. ¿Cómo manejan la parte ética a medida que Grok 4 se extiende? Eso va a ser muy importante.

El camino por recorrer: Las cosas se van a poner raras

xAI mostró algunos de sus planes durante la presentación, y una cosa me dejó completamente alucinado. Mencionaron la conexión de Grok con el software de dinámica de fluidos computacional de Tesla, el mismo CFD que los ingenieros de Tesla utilizan para la aerodinámica y la gestión térmica de los vehículos reales.

Tuve que pensarlo un momento. Nos hemos acostumbrado a la IA que conoce hechos, responde preguntas y escribe código. Pero la integración de CFD representa algo diferente. Una cosa es tener una IA capaz de explicar cómo funciona la dinámica de fluidos. Otra muy distinta es que esa IA pueda utilizar el software CFD para diseñar cosas que se mueven por el aire y disipan el calor. No se trata de un progreso gradual, sino de una capacidad completamente nueva.

OpenAI, Anthropic y Google no van a quedarse al margen. Pero Grok 4 ha cambiado las reglas del juego: hemos pasado del territorio de los "asistentes útiles" al de los "compañeros razonadores". El cambio me recuerda a lo que Ray Kurzweil dice de la explosión de la inteligencia: cada avance hace que el siguiente se produzca cada vez más rápido. Lo estamos viendo en tiempo real.

Tu turno: ¿Qué vas a construir?

Así que he estado pensando: ¿qué pasará cuando la IA pueda razonar a nivel de doctorado en todos los ámbitos? ¿Qué problemas que parecían imposibles de repente se abren de par en par? ¿Qué descubriremos cuando nuestras herramientas puedan pensar junto a nosotros? Y, sinceramente, ¿qué tipo de barandillas tendremos que poner cuando la IA sea tan inteligente?

Si usted es desarrollador, ya está planeando qué construir con esas API. Es probable que los investigadores se lo estén pasando en grande pensando en lo que de repente es posible. Y si estás aquí sentado pensando: "¿Qué significa la capacidad de Grok 4? Lleva tiempo procesar el concepto.

Pero aquí está la cosa: Grok 4 aterrizó en nuestros regazos si estamos listos o no. AI acaba de decir: "Esto es lo que es posible ahora, averiguar qué hacer con él".

Entonces... ¿qué vas a hacer con ella? La API de Grok está en https://x.ai/apiy hay toda una comunidad en X en la que desarrolladores e investigadores ya están superando los límites. Tres semanas después, estamos viendo aplicaciones que nadie predijo en el momento del lanzamiento. La oportunidad es enorme, no la desaprovechemos.

Referencias

Scott Rosenberg, "Elon Musk's xAI debuts Grok 4, 'smartest AI in the world'", Axios, 10 de julio de 2025, https://www.axios.com/2025/07/10/grok4-grok-xai-elon-musk.
"Musk unveils Grok 4 update a day after xAI chatbot made antisemitic remarks", CBS News, 10 de julio de 2025, https://www.cbsnews.com/news/elon-musk-grok-4-ai-chatbot-x/.
"Elon Musk's xAI launches Grok 4 alongside a $300 monthly subscription", TechCrunch, 9 de julio de 2025, https://techcrunch.com/2025/07/09/elon-musks-xai-launches-grok-4-alongside-a-300-monthly-subscription/.
"Elon Musk's xAI lanza Grok 4 junto a una suscripción mensual de 300 dólares", TechCrunch.
xAI, "Grok 4 Release Announcement", presentación en directo, 9 de julio de 2025.
xAI, "Grok 4 Release Announcement".
"Grok 4 Release: xAI Claims #1 AI Model Crown in Independent Testing", Gear Musk, 10 de julio de 2025, https://gearmusk.com/2025/07/10/xai-unveils-grok-4/.
xAI, "Grok 4 Release Announcement".
"Musk's Grok-4 Crushes Benchmarks, Beats OpenAI & Google in RL", Analytics India Magazine, 10 de julio de 2025, https://analyticsindiamag.com/global-tech/musks-grok-4-crushes-benchmarks-beats-openai-google-in-rl/.
"Premio ARC", X (antes Twitter), 10 de julio de 2025, https://twitter.com/arcprize/status/[specific-id].
François Chollet, "ARC-AGI: A New Frontier in AI Reasoning", Organización del Premio ARC, 2025.
xAI, "Grok 4 Release Announcement".
"Elon Musk's Grok 4 AI Models Set New Benchmark Records", Beebom, 10 de julio de 2025, https://beebom.com/elon-musk-grok-4-ai-models-set-new-benchmark-records/.
"xAI sets AI benchmark records with new reasoning-optimized Grok 4 model", SiliconANGLE, 10 de julio de 2025, https://siliconangle.com/2025/07/10/xai-sets-ai-benchmark-records-new-reasoning-optimized-grok-4-model/.
xAI, "Grok 4 Release Announcement".
xAI, "Grok 4 Release Announcement".
xAI, "Grok 4 Release Announcement".
"Comparison of AI Models across Intelligence, Performance, Price", Artificial Analysis, consultado el 11 de julio de 2025, https://artificialanalysis.ai/models.
Testimonios de usuarios, X (antes Twitter), 10-11 de julio de 2025.
Testimonios de usuarios, X (antes Twitter), 10-11 de julio de 2025.
"¿Qué hay de nuevo en Grok 4? Release Facts, Benchmarks, and Value", SmythOS, 10 de julio de 2025, https://smythos.com/developers/ai-models/whats-new-in-grok-4-release-facts-benchmarks-and-value/.
xAI, "Grok 4 Release Announcement".

Blake Crosley