Benchmark MATH: Evaluando el mejor LLM para matemáticas
- Falk Thomassen
- 19 mar
- 2 Min. de lectura
Actualizado: 22 ago
El benchmark MATH es una herramienta importante para la evaluación de LLMs.
Evalúa los LLMs con problemas matemáticos con el objetivo de determinar cuál es el mejor en matemáticas.
Vamos a profundizar.
Mejor LLM para el benchmark MATH
Comparando los principales modelos de frontera en el benchmark MATH.

Última actualización: marzo de 2025
Hay una gran diferencia entre los modelos con mejor puntuación en el benchmark MATH.
Grok-3 de xAI lidera con un 93,3%, seguido de cerca por Gemini 2.5 con un 92,0%, y GPT-o3 mini (la mejor versión de ChatGPT en este benchmark) con un sólido 87,3%.
Claude 3.7 Sonnet queda el último de este grupo, con un 80,0%.
Llama 3.1 405B de Meta no está incluido, ya que no se han publicado puntuaciones oficiales en MATH ni AIME.
¿Qué es el benchmark MATH de LLM?
El benchmark MATH de LLM no es un acrónimo; simplemente significa matemáticas.
Fue introducido por Hendrycks et al. (2021) como una forma de evaluar el rendimiento de los LLMs en problemas matemáticos desafiantes.
Este benchmark consta de 12,500 problemas obtenidos de competiciones de matemáticas de secundaria y cubre temas como:
Álgebra
Geometría
Probabilidad
Cálculo
Es una prueba difícil:
Un estudiante de doctorado sin una formación matemática sólida obtuvo 40%
Un medallista de oro en la IMO (Olimpiada Matemática Internacional) obtuvo 90%
Cuando se presentó por primera vez este conjunto de datos, incluso los mejores LLM solo alcanzaban un 6,9%. Hoy en día, modelos de vanguardia como Claude 3.7 Sonnet se acercan al rendimiento de expertos humanos, llegando a rozar el 97%.
AIME 2024: Una nueva frontera en la evaluación matemática
Muchos investigadores utilizan ahora AIME 2024 como un benchmark moderno para probar a los LLM en matemáticas de nivel competitivo.
AIME 2024 se basa en el "American Invitational Mathematics Examination" de la Mathematical Association of America.
Incluye 30 preguntas extremadamente difíciles, con puntuaciones medias de humanos de un solo dígito, incluso entre los mejores estudiantes de secundaria.
Aunque antes los LLM tenían muchas dificultades —GPT-4 solo acertó 1 de 30, y Claude y Gemini 2 de 30, según Google Deep Mind— los modelos están empezando a alcanzar ese nivel.
Este benchmark se está convirtiendo rápidamente en el nuevo estándar de referencia para evaluar el razonamiento matemático profundo.
Otros benchmarks de LLM
En BRACAI, hacemos un seguimiento del rendimiento de los principales modelos de frontera en múltiples benchmarks.
Si tienes alguna pregunta sobre estos benchmarks o sobre cómo empezar con la IA en tu negocio, no dudes en ponerte en contacto.