GPQA Diamond: ranking de los mejores LLM en ciencias (2026)
- 19 mar 2025
- 2 Min. de lectura
Actualizado: 29 ene
¿Alguna vez te has preguntado qué modelo de IA rinde mejor en ciencias “difíciles”?
El benchmark GPQA Diamond es una de las herramientas más potentes que tenemos para medirlo.
Pone a prueba hasta qué punto los modelos de IA son capaces de resolver preguntas de nivel de posgrado en biología, física y química, y está diseñado para resultar difícil incluso para expertos con doctorado.

¿Por qué debería importarte?
GPQA no es un test de cultura general. Es una prueba de ciencias brutalmente exigente.
En LLM, es uno de los mejores indicadores indirectos que tenemos de:
conocimiento de dominio en el que puedes confiar
razonamiento científico paso a paso
menos respuestas erróneas dadas con seguridad
Así que, si tu trabajo toca investigación, ingeniería, salud, clima o contenido técnico, las puntuaciones de GPQA Diamond son una señal útil a la hora de elegir un modelo de IA.
¿No tienes claro qué modelo escoger?
Consulta nuestra guía completa sobre los mejores LLM
Mejor LLM en el benchmark GPQA Diamond (ranking)
El benchmark GPQA Diamond muestra algo interesante: Incluso con preguntas más difíciles, los modelos punteros siguen sacando puntuaciones muy altas.
La parte alta se mantiene fuerte
Gemini 3 Pro lidera con un 92 %
Grok 4 le sigue con un 88 %
Claude Opus obtiene un 87 %
El modelo ChatGPT de OpenAI se sitúa en un 86 %
A este nivel, la cuestión ya no es «¿puede responder preguntas de ciencias?».
Es «¿con qué fiabilidad puede resolver las más difíciles, a nivel experto?».
La diferencia crece rápido por debajo del grupo puntero
Mistral (Europa) obtiene un 57 %, muy por detrás de los líderes.
Esa brecha importa si necesitas rendimiento consistente en trabajo técnico complejo.ork.
¿Qué es el benchmark GPQA?
GPQA significa “graduate-level Google-proof Q&A” (preguntas y respuestas a nivel de posgrado, “a prueba de Google”).
Rein y colaboradores (2023) lo presentaron para evaluar hasta qué punto los LLM son capaces de responder preguntas que requieren experiencia científica real.
La prueba incluye 448 preguntas repartidas entre:
Biología
Física
Química
Es extremadamente difícil para humanos:
Expertos con doctorado promedian en torno al 65 %
No expertos con buen nivel, incluso con acceso completo a la web, solo alcanzan el 34%
Por eso GPQA se ha convertido en un benchmark clave para medir el razonamiento científico.
¿Qué es el benchmark GPQA diamond?
En la práctica, es el “hermano mayor” de GPQA: las preguntas son más difíciles.
Incluye únicamente las 198 preguntas más exigentes, seleccionadas para separar a los verdaderos expertos del resto.
La brecha es llamativa:
Una prueba en la que los mejores expertos humanos aún sufren está ahora cerca de ser resoluble por los mejores sistemas de IA.
Por eso GPQA Diamond importa. Es uno de los pocos benchmarks que quedan y que todavía pueden distinguir a los mejores modelos del resto.
¿Listo para aplicar la IA a tu trabajo?
Los benchmarks son útiles, pero el impacto real en el negocio depende de la ejecución.
Impartimos talleres prácticos de IA y desarrollamos soluciones de IA a medida, rápidamente.



Comentarios