GPQA Diamond: ranking de los mejores LLM en ciencias (2026)
- 19 mar 2025
- 3 Min. de lectura
Actualizado: 30 mar
¿Alguna vez te has preguntado qué modelo de IA es mejor en ciencias difíciles?
El benchmark GPQA Diamond es una de las herramientas más potentes que tenemos para medirlo.
Evalúa hasta qué punto los modelos de IA resuelven preguntas de nivel de posgrado en biología, física y química, y está diseñado para ser difícil incluso para expertos con doctorado.

¿Por qué debería importarte?
GPQA no es un trivial. Es una prueba de ciencias brutalmente difícil.
Para los LLM, es uno de los mejores indicadores indirectos que tenemos de:
conocimiento de dominio en el que puedes confiar
razonamiento científico paso a paso
menos respuestas erróneas dadas con total seguridad
Así que, si tu trabajo toca investigación, ingeniería, salud, clima o contenido técnico, las puntuaciones de GPQA son una señal útil a la hora de elegir un modelo de IA..
¿No tienes claro qué modelo escoger?
Consulta nuestra guía completa sobre los mejores LLM
El mejor LLM en el benchmark GPQA diamond (clasificación)
El benchmark GPQA Diamond muestra algo interesante: incluso con preguntas más difíciles, los modelos punteros siguen obteniendo puntuaciones muy altas.
La cabeza se está frenando
Gemini 3 Pro de Google lidera actualmente el benchmark con un 94%.
Justo detrás hay varios modelos de primer nivel:
OpenAI GPT-5.4 — 93%
Claude Opus 4.6 — 91%
Grok 4 — 87%
A este nivel, la diferencia ya no tiene que ver con el conocimiento científico básico.
Más bien refleja lo fiable que es un modelo al razonar sobre las preguntas más difíciles, de nivel experto, en biología, física y química.
Otros sistemas punteros también están rindiendo con fuerza:
DeepSeek Reasoner — 83%
Qwen 3 — 80%
Estas puntuaciones sugieren que varios laboratorios de IA ya están construyendo modelos capaces de un razonamiento científico serio, no solo de recordar datos.
La brecha crece rápido fuera de la frontera
El rendimiento cae de forma apreciable en cuanto sales de los modelos líderes:
Meta Llama 4 Maverick — 67%
Mistral Medium 2.5 — 60%
Esa diferencia importa.
Si dependes de la IA para investigación técnica, apoyo a ingeniería o análisis científico, pequeñas brechas de precisión pueden traducirse en tasas mucho más altas de respuestas incorrectas en problemas complejos.
Por eso, GPQA Diamond sigue siendo uno de los benchmarks más claros para separar a los verdaderos modelos punteros de razonamiento del resto.
¿Qué es el benchmark GPQA?

GPQA significa “graduate-level Google-proof Q&A” (preguntas y respuestas a nivel de posgrado, “a prueba de Google”).
Rein y colaboradores (2023) lo presentaron para evaluar hasta qué punto los LLM son capaces de responder preguntas que requieren experiencia científica real.
La prueba incluye 448 preguntas repartidas entre:
Biología
Física
Química
Es extremadamente difícil para humanos:
Expertos con doctorado promedian en torno al 65 %
No expertos con buen nivel, incluso con acceso completo a la web, solo alcanzan el 34%
Por eso GPQA se ha convertido en un benchmark clave para medir el razonamiento científico.
¿Qué es el benchmark GPQA diamond?
En la práctica, es el “hermano mayor” de GPQA: las preguntas son más difíciles.
Incluye únicamente las 198 preguntas más exigentes, seleccionadas para separar a los verdaderos expertos del resto.
La brecha es llamativa:
Una prueba en la que los mejores expertos humanos aún sufren está ahora cerca de ser resoluble por los mejores sistemas de IA.
Por eso GPQA Diamond importa. Es uno de los pocos benchmarks que quedan y que todavía pueden distinguir a los mejores modelos del resto.
¿Listo para aplicar la IA a tu trabajo?
Los benchmarks son útiles, pero el impacto real en el negocio depende de la ejecución.
Impartimos talleres prácticos de IA y desarrollamos soluciones de IA a medida, rápidamente.



Comentarios