top of page

Clasificación del benchmark GPQA: Evaluación de LLMs con preguntas a nivel de posgrado

  • Falk Thomassen
  • 19 mar
  • 2 Min. de lectura

El benchmark GPQA es una herramienta importante para la evaluación de LLMs.


Evalúa qué tan bien los LLMs manejan preguntas complejas y específicas de áreas como biología, física y química.


Vamos a profundizar.



Mejor LLM para el benchmark GPQA

Comparando los principales modelos de frontera en el benchmark GPQA.

Clasificación del benchmark GPQA de los LLMs de frontera

Last updated: December, 2024

Company

Model

Score

Source

Google

Gemini 2.0

62.1%

xAI

Grok-2

56.0%

OpenAI

GPT-4o

53.6%

Meta

Llama 3.1 405B

51.1%

Anthropic

Claude3 Opus

50.4%

Mientras que el GPT-4o de OpenAI lideraba con un 53,6% (hasta junio de 2024), ahora ha sido superado por:

  • Gemini 2.0 de Google, que alcanzó la puntuación más alta con un 62,1%, y

  • Grok-2 de xAI, que obtuvo un 56,0%


La clasificación del benchmark GPQA muestra sólidas capacidades en todos los modelos, aunque aún hay margen de mejora, ya que la puntuación más alta sigue siendo del 62,1%.



¿Qué es la clasificación del benchmark GPQA?

GPQA significa Graduate-level Google-proof Q&A


Fue introducido por Rein et al. (2023) para evaluar qué tan bien los LLMs pueden manejar preguntas desafiantes que requieren razonamiento y experiencia en el dominio.


El test incluye 448 preguntas en áreas como:

  • Biología

  • Física

  • Química


El test GPQA es extremadamente difícil:

  • Los expertos alcanzan una precisión promedio del 65%

  • Los no expertos con acceso a internet solo alcanzan un promedio del 34%


Esto hace que la clasificación del benchmark GPQA sea una herramienta valiosa para evaluar las capacidades de razonamiento específico de dominio de un LLM.


Otros benchmarks de LLM

En BRACAI, hacemos un seguimiento del rendimiento de los principales modelos de frontera en múltiples benchmarks.


Si tienes alguna pregunta sobre estos benchmarks o sobre cómo empezar con la IA en tu negocio, no dudes en ponerte en contacto.

Comments


bottom of page