Benchmark MMMU: ranking de modelos multimodales en comprensión visual (2026)
- BRACAI

- hace 21 horas
- 3 Min. de lectura
¿Alguna vez te has preguntado qué modelo de IA es mejor entendiendo imágenes?
El benchmark MMMU es una de las mejores pruebas que tenemos para medirlo. Y su versión más exigente, MMMU-Pro, es especialmente útil para comparar modelos punteros.
Mide la capacidad multimodal en preguntas reales, complejas y de nivel experto: de esas que incluyen diagramas, tablas, gráficos y capturas de pantalla.

¿Por qué debería importarte?
Esto no es una prueba de «poner un pie de foto a una imagen». Es un benchmark de razonamiento.
En IA multimodal, es uno de los mejores indicadores indirectos que tenemos de:
comprensión visual en la que puedes confiar
combinar correctamente texto + imagen
resolver problemas reales con diagramas
menos respuestas erróneas dadas con seguridad
Así que, si tu trabajo incluye informes, documentación de ingeniería, pruebas médicas o material visual técnico, las puntuaciones de MMMU/MMMU-Pro importan de verdad.
¿No tienes claro qué modelo escoger?
Consulta nuestra guía completa sobre los mejores LLM
Mejor LLM en el benchmark MMMU-Pro (clasificación)
El benchmark MMMU-Pro muestra algo importante:
El razonamiento multimodal está mejorando rápido…
Pero todavía no está “resuelto”.
La parte alta está muy cerca
Gemini 3 Pro lidera con un 81 %
GPT-5.2 le sigue muy de cerca con un 80 %
Claude Opus se queda en un 74 %
A este nivel, la diferencia ya no es «¿puede ver?».
Es: «¿Con qué fiabilidad puede razonar con las imágenes más difíciles?».
El nivel intermedio cae rápido
Qwen obtiene un 69 %
Ernie se queda en un 65 %
Grok y Llama rondan el 62–63 %
Esa brecha importa.
Estos modelos fallarán con más frecuencia en diagramas complejos y gráficos técnicos.
Mistral se queda atrás
Mistral obtiene un 56 %.
Es un resultado muy por debajo de los líderes de frontera.
La visión sigue siendo una capacidad en la que solo compiten los mejores modelos.
DeepSeek es el claro valor atípico
DeepSeek V3.2-exp obtiene un 5 %.
Eso es, básicamente, inutilizable para razonamiento multimodal. Lo más probable es que refleje: una pila de visión débil o incompleta, o una ejecución de evaluación mal configurada.
En cualquier caso, es un recordatorio: no todos los modelos que se venden como “de frontera” son realmente multimodales.
¿Qué es el benchmark MMMU?
MMMU significa Massive Multi-discipline Multimodal Understanding and Reasoning.
Yue y colaboradores (2024) lo presentaron para evaluar modelos multimodales en tareas de nivel experto que integran texto e imágenes.
El benchmark incluye 11,5K preguntas de nivel universitario extraídas de:
exámenes
cuestionarios
libros de texto
Y cubre seis disciplinas:
arte y diseño
empresa
ciencias
salud y medicina
humanidades y ciencias sociales
tecnología e ingeniería
A diferencia de pruebas de visión más simples, MMMU se centra en el razonamiento profundo, no solo en la percepción.
¿Qué es el benchmark MMMU-Pro?
MMMU-Pro es la versión mejorada.
Se introdujo para hacer el benchmark más difícil y más realista.
La idea clave:
Así que MMMU-Pro añade escenarios visuales más exigentes.
Por ejemplo:
fondos con ruido
formatos del mundo real
preguntas más difíciles, con estilo de documento
Los modelos modernos empezaban a “saturar” MMMU.
Se parece más a lo que la IA multimodal se encuentra en entornos de empresa y de investigación.
MMMU-Pro es ahora uno de los mejores benchmarks que quedan para medir el razonamiento visual de verdad.
¿Listo para aplicar la IA a tu trabajo?
Los benchmarks son útiles, pero el impacto real en el negocio depende de la ejecución.
Impartimos talleres prácticos de IA y desarrollamos soluciones de IA a medida, rápidamente.



Comentarios