top of page

Benchmark MATH: Evaluando el mejor LLM para matemáticas

  • Falk Thomassen
  • 19 mar
  • 2 Min. de lectura

Actualizado: 22 ago

El benchmark MATH es una herramienta importante para la evaluación de LLMs.


Evalúa los LLMs con problemas matemáticos con el objetivo de determinar cuál es el mejor en matemáticas.


Vamos a profundizar.



Mejor LLM para el benchmark MATH

Comparando los principales modelos de frontera en el benchmark MATH.


Mejor LLM para matemáticas: comparando modelos de frontera


Última actualización: marzo de 2025

Company

Model

MATH

Source

xAI

Grok-3

93.3%

Google

Gemini 2.5

92.0%

OpenAI

GPT-o3 mini

87.3%

Anthropic

Claude 3.7 Sonnet

80.0%

Hay una gran diferencia entre los modelos con mejor puntuación en el benchmark MATH.

Grok-3 de xAI lidera con un 93,3%, seguido de cerca por Gemini 2.5 con un 92,0%, y GPT-o3 mini (la mejor versión de ChatGPT en este benchmark) con un sólido 87,3%.


Claude 3.7 Sonnet queda el último de este grupo, con un 80,0%.


Llama 3.1 405B de Meta no está incluido, ya que no se han publicado puntuaciones oficiales en MATH ni AIME.


¿Qué es el benchmark MATH de LLM?

El benchmark MATH de LLM no es un acrónimo; simplemente significa matemáticas.


Fue introducido por Hendrycks et al. (2021) como una forma de evaluar el rendimiento de los LLMs en problemas matemáticos desafiantes.


Este benchmark consta de 12,500 problemas obtenidos de competiciones de matemáticas de secundaria y cubre temas como:

  • Álgebra

  • Geometría

  • Probabilidad

  • Cálculo


Es una prueba difícil:

  • Un estudiante de doctorado sin una formación matemática sólida obtuvo 40%

  • Un medallista de oro en la IMO (Olimpiada Matemática Internacional) obtuvo 90%


Cuando se presentó por primera vez este conjunto de datos, incluso los mejores LLM solo alcanzaban un 6,9%. Hoy en día, modelos de vanguardia como Claude 3.7 Sonnet se acercan al rendimiento de expertos humanos, llegando a rozar el 97%.


AIME 2024: Una nueva frontera en la evaluación matemática

Muchos investigadores utilizan ahora AIME 2024 como un benchmark moderno para probar a los LLM en matemáticas de nivel competitivo.


AIME 2024 se basa en el "American Invitational Mathematics Examination" de la Mathematical Association of America.


Incluye 30 preguntas extremadamente difíciles, con puntuaciones medias de humanos de un solo dígito, incluso entre los mejores estudiantes de secundaria.


Aunque antes los LLM tenían muchas dificultades —GPT-4 solo acertó 1 de 30, y Claude y Gemini 2 de 30, según Google Deep Mind— los modelos están empezando a alcanzar ese nivel.


Este benchmark se está convirtiendo rápidamente en el nuevo estándar de referencia para evaluar el razonamiento matemático profundo.


Otros benchmarks de LLM

En BRACAI, hacemos un seguimiento del rendimiento de los principales modelos de frontera en múltiples benchmarks.


Si tienes alguna pregunta sobre estos benchmarks o sobre cómo empezar con la IA en tu negocio, no dudes en ponerte en contacto.

bottom of page