top of page

Benchmark MATH: Evaluando el mejor LLM para matemáticas

  • Falk Thomassen
  • 19 mar
  • 2 Min. de lectura

El benchmark MATH es una herramienta importante para la evaluación de LLMs.


Evalúa los LLMs con problemas matemáticos con el objetivo de determinar cuál es el mejor en matemáticas.


Vamos a profundizar.



Mejor LLM para el benchmark MATH

Comparando los principales modelos de frontera en el benchmark MATH.

Mejor LLM para matemáticas: comparando modelos de frontera

Last updated: December, 2024

Company

Model

MATH

Source

Google

Gemini 2.0

89.7%

OpenAI

GPT-4o

76.6%

xAI

Grok-2

76.1%

Meta

Llama 3.1 405B

73.8%

Anthropic

Claude3 Opus

60.1%

Existe una gran diferencia entre los LLMs con mejor rendimiento en los puntajes del benchmark MATH.


Mientras que el GPT-4o de OpenAI solía liderar con un 76,6% (hasta julio de 2024), ahora ha sido superado por Gemini 2.0 de Google, que alcanzó un impresionante 89,7%.


Mientras tanto, Grok-2 de xAI ha logrado ponerse al día, con un 76,1%, acercándose al rendimiento de GPT-4o.Meanwhile, xAI's Grok-2 has caught up, scoring 76.1% and coming close to GPT-4o.



¿Qué es el benchmark MATH de LLM?

El benchmark MATH de LLM no es un acrónimo; simplemente significa matemáticas.


Fue introducido por Hendrycks et al. (2021) como una forma de evaluar el rendimiento de los LLMs en problemas matemáticos desafiantes.


Este benchmark consta de 12,500 problemas obtenidos de competiciones de matemáticas de secundaria y cubre temas como:

  • Álgebra

  • Geometría

  • Probabilidad

  • Cálculo


Es una prueba difícil:

  • Un estudiante de doctorado sin una formación matemática sólida obtuvo 40%

  • Un medallista de oro en la IMO (Olimpiada Matemática Internacional) obtuvo 90%


Cuando se introdujo el conjunto de datos, incluso los mejores LLMs solo lograban un 6,9%. Hoy en día, modelos de frontera como Gemini 2.0 se han acercado al rendimiento de expertos humanos, alcanzando casi el 90%.



Otros benchmarks de LLM

En BRACAI, hacemos un seguimiento del rendimiento de los principales modelos de frontera en múltiples benchmarks.


Si tienes alguna pregunta sobre estos benchmarks o sobre cómo empezar con la IA en tu negocio, no dudes en ponerte en contacto.

Comments


bottom of page