Benchmark MATH: Evaluando el mejor LLM para matemáticas
- Falk Thomassen
- 19 mar
- 2 Min. de lectura
El benchmark MATH es una herramienta importante para la evaluación de LLMs.
Evalúa los LLMs con problemas matemáticos con el objetivo de determinar cuál es el mejor en matemáticas.
Vamos a profundizar.
Mejor LLM para el benchmark MATH
Comparando los principales modelos de frontera en el benchmark MATH.

Last updated: December, 2024
Existe una gran diferencia entre los LLMs con mejor rendimiento en los puntajes del benchmark MATH.
Mientras que el GPT-4o de OpenAI solía liderar con un 76,6% (hasta julio de 2024), ahora ha sido superado por Gemini 2.0 de Google, que alcanzó un impresionante 89,7%.
Mientras tanto, Grok-2 de xAI ha logrado ponerse al día, con un 76,1%, acercándose al rendimiento de GPT-4o.Meanwhile, xAI's Grok-2 has caught up, scoring 76.1% and coming close to GPT-4o.
¿Qué es el benchmark MATH de LLM?
El benchmark MATH de LLM no es un acrónimo; simplemente significa matemáticas.
Fue introducido por Hendrycks et al. (2021) como una forma de evaluar el rendimiento de los LLMs en problemas matemáticos desafiantes.
Este benchmark consta de 12,500 problemas obtenidos de competiciones de matemáticas de secundaria y cubre temas como:
Álgebra
Geometría
Probabilidad
Cálculo
Es una prueba difícil:
Un estudiante de doctorado sin una formación matemática sólida obtuvo 40%
Un medallista de oro en la IMO (Olimpiada Matemática Internacional) obtuvo 90%
Cuando se introdujo el conjunto de datos, incluso los mejores LLMs solo lograban un 6,9%. Hoy en día, modelos de frontera como Gemini 2.0 se han acercado al rendimiento de expertos humanos, alcanzando casi el 90%.
Otros benchmarks de LLM
En BRACAI, hacemos un seguimiento del rendimiento de los principales modelos de frontera en múltiples benchmarks.
Si tienes alguna pregunta sobre estos benchmarks o sobre cómo empezar con la IA en tu negocio, no dudes en ponerte en contacto.
Comments