Esta semana hemos tenidos dos noticias sobre el desempeño de la IA en la Olimpiada de Internacional de Matemáticas. Primero supimos que OpenAI había conseguido una medalla de oro y, días después, hemos conocido la misma información de Google DeepMind. No porque haya ocurrido después sino, según su CEO, Demis Hassabis, porque han sido más respetuosos con los tiempos que marcaba la organización de cara a dar la información. Considero esta noticia como un hito histórico así que quiero entrar en detalle sobre cómo se ha producido, en qué consiste la olimpiada, cuál es la diferencia con éxitos anteriores y por qué los logros de las dos compañías no son iguales. Cuándo veremos estos modelos en el mercado y qué implicaciones tiene todo esto. Vamos allá.
¿Qué es la Olimpiada Internacional de Matemáticas?
La Olimpiada Internacional de Matemáticas (IMO, por sus siglas en inglés) es la competición de matemáticas más prestigiosa del mundo a nivel preuniversitario. Se celebra anualmente desde 1959, cada año en un país distinto, y enfrenta a equipos de hasta seis estudiantes de secundaria por país en la resolución de seis problemas extremadamente desafiantes de álgebra, geometría, teoría de números y combinatoria. Los participantes tienen menos de 20 años y son la élite juvenil de las matemáticas, seleccionados tras competiciones nacionales. El concurso se desarrolla típicamente en dos exámenes de 4,5 horas (en días consecutivos, con tres problemas cada día). Los problemas requieren un razonamiento creativo y profundo, no solo habilidad técnica, y están pensados para llevar al límite la capacidad de resolución de problemas. De hecho, solo alrededor del 8–10% de los participantes logran una medalla de oro, reservada a las puntuaciones más altas. En la edición de 2025, celebrada en Sunshine Coast (Australia) en julio, compitieron más de 600 estudiantes de más de 100 países; únicamente 67 de 630 participantes humanos obtuvieron puntuaciones en el rango de medalla de oro (≈35 puntos sobre 42), y solo cinco obtuvieron la puntuación perfecta de 42 puntos resolviendo todos los problemas.
Un hito histórico: inteligencia artificial al nivel de los mejores “mathletes”
Por primera vez en la historia, sistemas de inteligencia artificial han alcanzado un rendimiento equiparable al de los medallistas de oro de la IMO. Dos modelos, uno de Google DeepMind y otro de OpenAI, han logrado resolver 5 de los 6 problemas del examen oficial de 2025, obteniendo 35 de 42 puntos, una puntuación suficiente para la codiciada medalla de oro. Este logro sitúa a las IAs entre el 10% más destacado de la competición, al nivel de los mejores prodigios humanos del mundo. En concreto, ambos modelos fallaron únicamente el Problema 6 (tradicionalmente el más difícil del concurso), resolviendo correctamente los problemas 1 al 5. Esto significa que, si bien ningún modelo alcanzó la puntuación perfecta, sí igualaron o superaron a la gran mayoría de los concursantes humanos, quedando solo por detrás de esos contados genios que resolvieron absolutamente todo.
Las IAs fueron evaluadas bajo las mismas condiciones estrictas que los participantes humanos. Según explicó Alexander Wei, investigador de OpenAI, su modelo afrontó los problemas sin acceso a Internet, sin herramientas de cálculo ni asistencia externa, limitándose a leer los enunciados oficiales y a redactar soluciones completas en lenguaje natural, todo ello en las dos sesiones de 4,5 horas reglamentarias. Google DeepMind, por su parte, coordinó con la organización de la IMO para someter su modelo a evaluación oficial: el comité de coordinadores corrigió las soluciones de la IA igual que haría con las de un estudiante, certificando que eran correctas y otorgándoles la misma puntuación. (Cabe señalar que los jueces de la IMO evaluaron la validez matemática de las respuestas, aunque naturalmente no pudieron verificar aspectos internos del sistema, como su potencia de cálculo o si hubo intervención humana en su desarrollo). En el caso de OpenAI, al no competir de forma oficial, sus respuestas fueron revisadas de forma anónima por un panel de tres exmedallistas de la IMO que confirmaron la corrección y calidad de las demostraciones. En ambos casos, las soluciones generadas por las IAs fueron descritos como claros, precisos y fáciles de seguir, indistinguibles en estilo de los de un concursante humano sobresaliente.
Este resultado representa un salto cualitativo enorme respecto al año anterior. En 2024, ningún sistema de IA había pasado del nivel “plata”: Google DeepMind participó ese año con un enfoque especializado (combinando sus sistemas AlphaProof y AlphaGeometry), logrando resolver 4 de 6 problemas (28 puntos, nivel medalla de plata). Aquel esfuerzo pionero requirió métodos muy específicos, como traducir los problemas del lenguaje natural a lenguajes formales (por ejemplo, expresándolos en el asistente de teoremas Lean) antes de poder resolverlos, para luego traducir las pruebas de vuelta al lenguaje común. Además, aquellas IAs necesitaron días de cálculo intensivo para producir sus demostraciones. En cambio, en 2025 las nuevas IA resolvieron cinco problemas de principio a fin en lenguaje natural, en solo horas de trabajo, sin ayudas externas, igualando ya a los mejores humanos. Es, como destacó el presidente de la IMO, “un hito muy deseado” ver a un modelo alcanzar 35/42 puntos –puntuación de oro– con soluciones “asombrosas en muchos aspectos” según los coordinadores que las corrigieron.
Enfoques diferentes: DeepMind vs. OpenAI
Aunque ambos proyectos alcanzaron un desempeño similar (35 puntos), la forma en que llegaron a ese resultado fue distinta en cada compañía, lo cual hace el duelo especialmente interesante. Google DeepMind logró la hazaña con una estrategia bastante orientada al dominio matemático, mientras que OpenAI optó por un modelo más generalista. Veamos las diferencias.
Google DeepMind empleó un modelo avanzado de su familia Gemini, funcionando en un modo especial apodado “Deep Think”. Este modo de razonamiento mejorado incorpora algunas de las técnicas más recientes del laboratorio de DeepMind. En primer lugar, habilita el “pensamiento paralelo” o exploración múltiple: en vez de seguir una única línea de razonamiento de principio a fin, el modelo puede ramificar su proceso mental en varios caminos simultáneamente y combinarlos antes de dar la respuesta final. En esencia, es como si la IA pudiera plantearse varias posibles soluciones o enfoques al mismo tiempo (por ejemplo, probando distintas estrategias en paralelo para un problema de geometría) y luego escoger la más prometedora. Esto contrasta con la forma habitual en que operan los LLM, siguiendo token a token una única trayectoria; Deep Think le permite salirse de esa secuencia lineal y considerar alternativas en paralelo, lo que resulta muy útil para problemas complejos con múltiples vías de solución.
Además, DeepMind entrenó específicamente esta versión de Gemini para tareas matemáticas avanzadas. Según su comunicado, aplicaron novedosas técnicas de aprendizaje por refuerzo para aprovechar datos de razonamiento multi-paso, resolución de problemas y demostración de teoremas, incrementando así la capacidad del modelo para encadenar largas secuencias lógicas. También se enriqueció el entrenamiento con un corpus curado de soluciones de alta calidad a problemas de matemática (por ejemplo, soluciones ejemplares de olimpiadas pasadas y otros desafíos matemáticos), de las que el modelo pudo aprender estilos de demostración rigurosos. Incluso se le proporcionaron “consejos” o indicaciones generales de cómo abordar problemas de la IMO directamente en sus instrucciones. Todo esto equivale a una especie de coaching especializado: el sistema llegó al examen habiendo estudiado técnicas de resolución y ejemplos de soluciones matemáticas pulidas. Con este bagaje y las capacidades inherentes de Gemini, la IA de DeepMind logró resolver 5 problemas a la perfección en el límite de tiempo estándar (4.5 horas cada examen).
OpenAI, en cambio, alcanzó el mismo resultado con un modelo más generalista y sin entrenamiento específico para la IMO. Su modelo (aún experimental y sin nombre público, referido a veces como nuevo modelo de razonamiento) forma parte de una serie de IA diseñadas para “pensar” más tiempo antes de responder. OpenAI no dotó a su sistema de conocimientos o datos exclusivos de olimpiadas, sino que más bien desarrolló un marco de entrenamiento de razonamiento general. En palabras del investigador Alexander Wei, “a diferencia de modelos anteriores como AlphaGeometry de DeepMind –diseñado específicamente para geometría–, el modelo de OpenAI es un sistema de propósito general … que no recibió un entrenamiento especializado para la IMO”. La clave de su rendimiento estuvo en aplicar nuevas técnicas de aprendizaje por refuerzo para enseñarle al modelo a pensar paso a paso de forma productiva, junto con la habilidad de aprovechar más cómputo durante la generación de respuestas. Dicho de otro modo, el equipo de OpenAI se centró en mejorar la capacidad de “cadena de pensamiento” (chain-of-thought) del modelo: que sea capaz de descomponer problemas difíciles en subpasos, verificar sus avances, corregir errores intermedios y perseverar hasta llegar a una solución sólida. A través de entrenamiento reforzado, el modelo aprendió a refinar sus estrategias de razonamiento, reconocer y enmendar sus errores, y probar enfoques alternativos cuando se atascaba. El resultado es que esta IA “piensa durante horas” si es necesario –según Noam Brown, miembro del proyecto. –, “no lo hace rápido, pero lo hace bien”, combinando un razonamiento prolongado estructurado lógicamente con capacidad de síntesis en sus explicaciones.
Otra diferencia crucial es que OpenAI no alimentó a su modelo con datos formateados en lenguajes matemáticos formales ni lo vinculó a software externo de comprobación, sino que lo dejó trabajar directamente en lenguaje natural. El modelo fue generando borradores de demostración en texto libre, tal como haría un concursante escribiendo su solución, y afinándolos internamente hasta producir una prueba coherente y correcta. Todo esto apoyado únicamente en el propio modelo de lenguaje general (aunque potenciado por las técnicas de razonamiento mencionadas), sin módulos especializados de matemática simbólica. En contraste, DeepMind el año anterior apoyó sus soluciones en sistemas formales externos (Lean) y algoritmos de búsqueda tradicionales para verificar pasos. En 2025, incluso su enfoque natural con Gemini seguía beneficiándose de haber integrado ese corpus de demostraciones formales y herramientas en el entrenamiento, mientras que el de OpenAI operó como una caja negra autorreflexiva, por así decir.
El mérito de OpenAI es haber demostrado que un modelo de lenguaje general puede alcanzar un rendimiento de élite en matemáticas sin necesidad de “trucos” ad hoc para ese dominio. Esto supone que la generalidad puede rivalizar (o incluso superar) a la especialización en este tipo de tareas: los algoritmos que antes había que diseñar a medida (ya fueran motores de pruebas geométricas o resolutores simbólicos) pueden ser reemplazados por un LLM entrenado para razonar de forma flexible. De hecho, pruebas preliminares muestran que otros modelos de propósito general conocidos, como GPT-4 original o incluso la versión base de Gemini antes de “Deep Think”, se quedaron muy por debajo: ni siquiera alcanzaban medalla de bronce en pruebas similares, presentando multitud de lagunas lógicas. El nuevo modelo de OpenAI, en cambio, alcanzó directamente el nivel oro sin ajuste específico para el examen. Lo que ha conseguido DeepMind ya es muy meritorio. Lo que ha conseguido OpenAI es increíble. Literalmente, hace pocos años nadie lo habría creído.
Importancia del logro y perspectivas a futuro
Este doble triunfo de las IAs en la IMO 2025 marca un antes y después en el campo del razonamiento automatizado. Hasta hace poco, que una máquina resolviese problemas de olimpiadas matemáticas se consideraba casi ciencia ficción. La mayoría de los expertos apuntaban que las demostraciones largas, creativas y difíciles de verificar eran terreno exclusivo de las mentes humanas por bastante más tiempo. De hecho, en 2021 un pronóstico optimista estimaba que para 2025 un modelo podría alcanzar apenas un 30% en el benchmark “MATH” (un conjunto de problemas de concurso de dificultad menor que la IMO), pero la realidad ha superado con creces esas expectativas . En palabras del propio Wei, “en lugar de ese 30% en MATH, ahora tenemos un oro en la IMO”. El CEO de OpenAI, Sam Altman, ha reconocido que “cuando fundamos OpenAI, soñar con algo así no parecía realista”, y que este es “un marcador significativo de lo lejos que ha llegado la IA en la última década”.
¿Por qué es relevante este avance? En primer lugar, demuestra un enorme progreso en la capacidad de razonamiento general de las máquinas. Hasta ahora, los hitos de la IA tendían a darse en entornos muy definidos (vencer al campeón mundial de Go, dominar el póker, etc.), siempre mediante sistemas entrenados ex profeso para esas tareas. Aquí, en cambio, hablamos de modelos de propósito general (LLMs) enfrentándose a problemas nuevos de alta complejidad, y resolviéndolos con explicaciones en lenguaje natural. Esto sugiere que estas IAs están empezando a “entender” (en un sentido operativo, no vamos a entrar en cuestiones filosóficas) la matemática a un nivel profundo, integrando conocimiento amplio y técnicas de razonamiento abstracto. Tal capacidad podría traducirse en herramientas muy poderosas para la comunidad científica y educativa. Por ejemplo, un asistente de IA podría ayudar a matemáticos profesionales a explorar conjeturas, verificar demostraciones o incluso formular nuevas ideas, actuando como un colaborador incansable que prueba múltiples estrategias en paralelo. De hecho, investigadores de DeepMind señalan que “estamos apenas al comienzo” del potencial de la IA en matemáticas, pero vislumbran sistemas que combinen la fluidez en lenguaje natural con el rigor de las pruebas formales para convertirse en aliados invaluables de matemáticos e investigadores.
Quiero recordar que llevamos más de un año escuchando a muchos expertos hablar de un techo de los LLMs. Decían que este camino no daba para más. Seguramente, muchas de estas afirmaciones han sido previas a ver el desempeño de los modelos de razonamiento que usan computación en tiempo de ejecución (test time computing). Lo cierto es que desde que han aparecido estos modelos, el desempeño no ha parado de subir y, de momento, no está dando síntomas de agotamiento. Si el año pasado se llegó a la medalla de plata, con ciertas ayudas externas, y ahora ya se ha conseguido el oro sin apoyo de ninguna otra herramienta, no es descabellado pensar que este progreso va a continuar y que en poco tiempo, como ha pasado en el ajedrez, sea necesario sacar a las máquinas de la competición a una categoría aparte, claramente sobrehumana.
En cuanto a la disponibilidad comercial, tanto OpenAI como Google DeepMind han sido prudentes. ¿Veremos estas capacidades inmediatamente en ChatGPT o productos similares? La respuesta es no, al menos a corto plazo. OpenAI dejó claro que este modelo prototipo no se lanzará públicamente por ahora, y que aunque están a punto de liberar una nueva versión (GPT-5), “no incluirá todavía esta capacidad avanzada”. Sam Altman ha avisado que no planean lanzar un modelo con nivel “oro de IMO” “en muchos meses”, subrayando que se trata de un experimento de investigación con técnicas nuevas que aún deben madurar. En la misma línea, DeepMind ha anunciado que probará una versión de su modelo Deep Think solo con un grupo reducido de matemáticos de confianza antes de plantear un despliegue más amplio dentro de sus servicios. Esto refleja una actitud responsable: estos sistemas son extremadamente poderosos pero también complejos, y seguramente requieren más evaluación en cuanto a seguridad, robustez y alineamiento ético antes de ponerse en manos de cualquiera.
Por otra parte, surgen cuestiones de coste y disponibilidad. Alcanzar este nivel de rendimiento no fue trivial: ha implicado un gran esfuerzo computacional y técnicas de entrenamiento complejas. Expertos como Gary Marcus han preguntado: “¿cuánta energía o coste supuso resolver cada problema? ¿Qué tan reproducible es esta hazaña?”, subrayando que por impresionante que sea, habrá que ver si se puede escalar de forma accesible o si queda como una demostración aislada. Personalmente, no me preocupa tanto la cantidad de computación que se haya usado, porque como venimos viendo en los últimos años -y fue especialmente sonado en el caso de DeepSeek– los modelos se van optimizando por varios órdenes de magnitud según pasa el tiempo, y como es natural con una tecnología de frontera. En todo caso, son pertinentes, sobre todo a corto plazo, las dudas de Marcus. Hay que decir que este hombre, azote incansable de la vía de investicación de los LLMs, se rindió ante estos resultados diciendo que era impresionante, lo que ha sido muy celebrado en redes. Aunque, por supuesto, después ha confirmado que sigue creyendo que este no es el camino hacia la AGI. Que un helicóptero puede ser impresionante pero no nos llevará nunca hasta la luna.
¿Cómo es realmente el examen?
Creo que ya ha quedado claro que el examen es muy difícil desde el momento que solo los mayores genios de las matemáticas de entre los menores de 20 años participan y solo cinco personas han podido resolver todos los ejercicios. Pero veamos dos ejemplos del examen de este año. En primer lugar, el problema 1, uno de los que ambos modelos han sido capaces de resolver.
Problema 1. Una recta del plano se llama soleada si no es paralela ni al eje x, ni al eje y, ni a la
recta x + y = 0.
Sea n ⩾ 3 un entero dado. Determine todos los enteros no negativos k para los que existen n rectas distintas del plano que satisfacen las dos condiciones siguientes:
- Para cualesquiera enteros positivos a y b con a + b ⩽ n + 1, el punto (a, b) está en al menos una de estas rectas; y
- Exactamente k de estas n rectas son soleadas.
Animo a intentar resolverlo para comprobar su complejidad y, sobre todo, la creatividad que supone afrontarlo. La solución de OpenAI tiene 228 líneas.
Por otro lado, este es el ejercicio que ninguno de los dos modelos ha sido capaz de resolver. ¿Sabríais por dónde empezar?
Problema 6. Se considera una cuadrícula de 2025×2025 cuadrados unitarios. Matilde desea colocar
algunas fichas rectangulares sobre la cuadrícula, que pueden ser de tamaños distintos, de modo que
cada lado de cada ficha se encuentra sobre una línea de la cuadrícula y cada cuadrado unitario está
cubierto por a lo más una ficha.
Determine el número mínimo de fichas que Matilde necesita colocar de modo que cada fila y cada
columna de la cuadrícula tiene exactamente un cuadrado unitario que no está cubierto por ninguna
ficha.
Quizá este logro no tenga tanto glamour como la victoria de Deep Blue ante Kasparov en 1997. Quizá no sea tan emocionante como la victoria de AlphaGo contra Lee Sedol en 2016 y que tan bien está relatada en Maniac, la novela de Benjamín Labatut. Pero creo que cualitativamente es un hito similar, en cuanto a demostrar un nivel competitivo con respecto a los mejores humanos del planeta. Una capacidad que, como comentaba antes, sin duda va a seguir mejorando y que tiene dos diferencias con los otros hitos anteriores. Por un lado, esta no es simplemente una demostración de capacidades en un contexto de ocio como es el ajedrez o el Go; las matemáticas tienen una aplicación práctica y puede ser muy beneficioso para la ciencia. Y por otro lado, las otras victorias se consiguieron con herramientas específicamente diseñadas para su propósito. En este caso, especialmente el modelo de OpenAI no está necesariamente diseñado para las matemáticas, así que quién sabe todo lo que podrá hacer. ¿Alcanzaremos la ansiada AGI en algún momento a través de esta arquitectura? No lo sé pero los logros que se consigan por el camino ya son suficiente recompensa.
Enlaces de interés:
Noticia en el blog de DeepMind
Github de Alexander Wei con las respuestas de la IA de OpenAI
Examen de la IMO 2025 en castellano