top of page

Benchmark MMMU: ranking de modelos multimodales en comprensión visual (2026)

  • Foto del escritor: BRACAI
    BRACAI
  • hace 21 horas
  • 3 Min. de lectura

¿Alguna vez te has preguntado qué modelo de IA es mejor entendiendo imágenes?


El benchmark MMMU es una de las mejores pruebas que tenemos para medirlo. Y su versión más exigente, MMMU-Pro, es especialmente útil para comparar modelos punteros.


Mide la capacidad multimodal en preguntas reales, complejas y de nivel experto: de esas que incluyen diagramas, tablas, gráficos y capturas de pantalla.


Benchmark MMMU (MMMU-Pro)
Datos del benchmark revisados por última vez: enero de 2026

¿Por qué debería importarte?

Esto no es una prueba de «poner un pie de foto a una imagen». Es un benchmark de razonamiento.


En IA multimodal, es uno de los mejores indicadores indirectos que tenemos de:

  • comprensión visual en la que puedes confiar

  • combinar correctamente texto + imagen

  • resolver problemas reales con diagramas

  • menos respuestas erróneas dadas con seguridad


Así que, si tu trabajo incluye informes, documentación de ingeniería, pruebas médicas o material visual técnico, las puntuaciones de MMMU/MMMU-Pro importan de verdad.


¿No tienes claro qué modelo escoger?

Consulta nuestra guía completa sobre los mejores LLM


Mejor LLM en el benchmark MMMU-Pro (clasificación)

El benchmark MMMU-Pro muestra algo importante:

El razonamiento multimodal está mejorando rápido…

Pero todavía no está “resuelto”.


La parte alta está muy cerca

  • Gemini 3 Pro lidera con un 81 %

  • GPT-5.2 le sigue muy de cerca con un 80 %

  • Claude Opus se queda en un 74 %


A este nivel, la diferencia ya no es «¿puede ver?».

Es: «¿Con qué fiabilidad puede razonar con las imágenes más difíciles?».


El nivel intermedio cae rápido

  • Qwen obtiene un 69 %

  • Ernie se queda en un 65 %

  • Grok y Llama rondan el 62–63 %


Esa brecha importa.

Estos modelos fallarán con más frecuencia en diagramas complejos y gráficos técnicos.


Mistral se queda atrás

  • Mistral obtiene un 56 %.


Es un resultado muy por debajo de los líderes de frontera.

La visión sigue siendo una capacidad en la que solo compiten los mejores modelos.


DeepSeek es el claro valor atípico

  • DeepSeek V3.2-exp obtiene un 5 %.


Eso es, básicamente, inutilizable para razonamiento multimodal. Lo más probable es que refleje: una pila de visión débil o incompleta, o una ejecución de evaluación mal configurada.


En cualquier caso, es un recordatorio: no todos los modelos que se venden como “de frontera” son realmente multimodales.


¿Qué es el benchmark MMMU?

MMMU significa Massive Multi-discipline Multimodal Understanding and Reasoning.


Yue y colaboradores (2024) lo presentaron para evaluar modelos multimodales en tareas de nivel experto que integran texto e imágenes.


El benchmark incluye 11,5K preguntas de nivel universitario extraídas de:

  • exámenes

  • cuestionarios

  • libros de texto


Y cubre seis disciplinas:

  • arte y diseño

  • empresa

  • ciencias

  • salud y medicina

  • humanidades y ciencias sociales

  • tecnología e ingeniería


A diferencia de pruebas de visión más simples, MMMU se centra en el razonamiento profundo, no solo en la percepción.


¿Qué es el benchmark MMMU-Pro?

MMMU-Pro es la versión mejorada.

Se introdujo para hacer el benchmark más difícil y más realista.


La idea clave:

Así que MMMU-Pro añade escenarios visuales más exigentes.


Por ejemplo:

  • fondos con ruido

  • formatos del mundo real

  • preguntas más difíciles, con estilo de documento


Los modelos modernos empezaban a “saturar” MMMU.


Se parece más a lo que la IA multimodal se encuentra en entornos de empresa y de investigación.


MMMU-Pro es ahora uno de los mejores benchmarks que quedan para medir el razonamiento visual de verdad.


¿Listo para aplicar la IA a tu trabajo?

Los benchmarks son útiles, pero el impacto real en el negocio depende de la ejecución.

Impartimos talleres prácticos de IA y desarrollamos soluciones de IA a medida, rápidamente.



Comentarios


bottom of page