top of page

GPQA Diamond: ranking de los mejores LLM en ciencias (2026)

  • 19 mar 2025
  • 3 Min. de lectura

Actualizado: 30 mar

¿Alguna vez te has preguntado qué modelo de IA es mejor en ciencias difíciles?


El benchmark GPQA Diamond es una de las herramientas más potentes que tenemos para medirlo.


Evalúa hasta qué punto los modelos de IA resuelven preguntas de nivel de posgrado en biología, física y química, y está diseñado para ser difícil incluso para expertos con doctorado.


Ranking del benchmark GPQA Diamond (LLM de frontera)
Datos del benchmark comprobados por última vez: marzo de 2026

¿Por qué debería importarte?

GPQA no es un trivial. Es una prueba de ciencias brutalmente difícil.


Para los LLM, es uno de los mejores indicadores indirectos que tenemos de:

  • conocimiento de dominio en el que puedes confiar

  • razonamiento científico paso a paso

  • menos respuestas erróneas dadas con total seguridad


Así que, si tu trabajo toca investigación, ingeniería, salud, clima o contenido técnico, las puntuaciones de GPQA son una señal útil a la hora de elegir un modelo de IA..


¿No tienes claro qué modelo escoger?

Consulta nuestra guía completa sobre los mejores LLM


El mejor LLM en el benchmark GPQA diamond (clasificación)

El benchmark GPQA Diamond muestra algo interesante: incluso con preguntas más difíciles, los modelos punteros siguen obteniendo puntuaciones muy altas.


La cabeza se está frenando

Gemini 3 Pro de Google lidera actualmente el benchmark con un 94%.


Justo detrás hay varios modelos de primer nivel:

  • OpenAI GPT-5.4 — 93%

  • Claude Opus 4.6 — 91%

  • Grok 4 — 87%


A este nivel, la diferencia ya no tiene que ver con el conocimiento científico básico.

Más bien refleja lo fiable que es un modelo al razonar sobre las preguntas más difíciles, de nivel experto, en biología, física y química.


Otros sistemas punteros también están rindiendo con fuerza:

  • DeepSeek Reasoner — 83%

  • Qwen 3 — 80%


Estas puntuaciones sugieren que varios laboratorios de IA ya están construyendo modelos capaces de un razonamiento científico serio, no solo de recordar datos.


La brecha crece rápido fuera de la frontera

El rendimiento cae de forma apreciable en cuanto sales de los modelos líderes:

  • Meta Llama 4 Maverick — 67%

  • Mistral Medium 2.5 — 60%


Esa diferencia importa.

Si dependes de la IA para investigación técnica, apoyo a ingeniería o análisis científico, pequeñas brechas de precisión pueden traducirse en tasas mucho más altas de respuestas incorrectas en problemas complejos.


Por eso, GPQA Diamond sigue siendo uno de los benchmarks más claros para separar a los verdaderos modelos punteros de razonamiento del resto.


¿Qué es el benchmark GPQA?

ejemplo de GPQA

GPQA significa “graduate-level Google-proof Q&A” (preguntas y respuestas a nivel de posgrado, “a prueba de Google”).


Rein y colaboradores (2023) lo presentaron para evaluar hasta qué punto los LLM son capaces de responder preguntas que requieren experiencia científica real.


La prueba incluye 448 preguntas repartidas entre:

  • Biología

  • Física

  • Química


Es extremadamente difícil para humanos:

  • Expertos con doctorado promedian en torno al 65 %

  • No expertos con buen nivel, incluso con acceso completo a la web, solo alcanzan el 34%


Por eso GPQA se ha convertido en un benchmark clave para medir el razonamiento científico.


¿Qué es el benchmark GPQA diamond?

En la práctica, es el “hermano mayor” de GPQA: las preguntas son más difíciles.


Incluye únicamente las 198 preguntas más exigentes, seleccionadas para separar a los verdaderos expertos del resto.


La brecha es llamativa:

Una prueba en la que los mejores expertos humanos aún sufren está ahora cerca de ser resoluble por los mejores sistemas de IA.


Por eso GPQA Diamond importa. Es uno de los pocos benchmarks que quedan y que todavía pueden distinguir a los mejores modelos del resto.


¿Listo para aplicar la IA a tu trabajo?

Los benchmarks son útiles, pero el impacto real en el negocio depende de la ejecución.

Impartimos talleres prácticos de IA y desarrollamos soluciones de IA a medida, rápidamente.



Comentarios


bottom of page