top of page

LLM Arena: la tabla de los mejores modelos

  • Falk Thomassen
  • 19 ago
  • 1 Min. de lectura

La tabla de LLM Arena es una herramienta clave para evaluar modelos de lenguaje.


Utiliza un sistema de puntuación ELO dinámico que muestra qué modelos destacan en multitarea, razonamiento y uso en el mundo real.


Vamos a verlo con más detalle.


Mejor LLM según el ranking de LLM Arena

Aquí comparamos los modelos más conocidos en la tabla de LLM Arena.

Ranking de LLM Arena de los principales modelos de vanguardia

Última actualización: julio de 2025

Empresa

Modelo

Puntos Arena

Google

Gemini 2.5

1474

xAI

Grok-3

1438

OpenAI

GPT-o3

1431

Anthropic

Claude 3.7 Sonnet

1343

Meta

Llama 4

1292

Gemini 2.5 Pro de Google lidera con 1474 puntos, seguido de Grok 4 de xAI (1438) y GPT-o3 de OpenAI (1431).


A continuación están Claude 3.7 Sonnet de Anthropic (1343) y Llama 4 de Meta (1292).


¿Qué es el ranking de LLM Arena?

El ranking LLM Arena fue creada por investigadores de la Universidad de California en Berkeley, dentro del grupo LMSYS (Large Model Systems Organization).


Sirve para comparar modelos de lenguaje (LLMs) y ver cuál responde mejor en una conversación.

Cómo funciona LMArena para evaluar LLMs

Cómo funciona:

  • Dos modelos responden al mismo prompt de forma anónima

  • Personas eligen la mejor respuesta según precisión, coherencia y utilidad

  • La puntuación se actualiza tras cada enfrentamiento


La tabla muestra el rendimiento en tareas de conversación y razonamiento, y se ha convertido en un recurso clave para seguir la evolución de la IA.


Otros benchmarks de LLM

En BRACAI seguimos de cerca el rendimiento de los principales modelos en varios benchmarks.


Si quieres saber más sobre estas pruebas o cómo empezar a aplicar IA en tu empresa, ponte en contacto con nosotros.

bottom of page