LLM Arena: la tabla de los mejores modelos

19 ago 2025
1 Min. de lectura

La tabla de LLM Arena es una herramienta clave para evaluar modelos de lenguaje.

Utiliza un sistema de puntuación ELO dinámico que muestra qué modelos destacan en multitarea, razonamiento y uso en el mundo real.

Vamos a verlo con más detalle.

Mejor LLM según el ranking de LLM Arena

Aquí comparamos los modelos más conocidos en la tabla de LLM Arena.

Ranking de LLM Arena de los principales modelos de vanguardia

Última actualización: julio de 2025

Empresa	Modelo	Puntos Arena
Google	Gemini 2.5	1474
xAI	Grok-3	1438
OpenAI	GPT-o3	1431
Anthropic	Claude 3.7 Sonnet	1343
Meta	Llama 4	1292

Gemini 2.5 Pro de Google lidera con 1474 puntos, seguido de Grok 4 de xAI (1438) y GPT-o3 de OpenAI (1431).

A continuación están Claude 3.7 Sonnet de Anthropic (1343) y Llama 4 de Meta (1292).

¿Qué es el ranking de LLM Arena?

El ranking LLM Arena fue creada por investigadores de la Universidad de California en Berkeley, dentro del grupo LMSYS (Large Model Systems Organization).

Sirve para comparar modelos de lenguaje (LLMs) y ver cuál responde mejor en una conversación.

Cómo funciona:

Dos modelos responden al mismo prompt de forma anónima
Personas eligen la mejor respuesta según precisión, coherencia y utilidad
La puntuación se actualiza tras cada enfrentamiento

La tabla muestra el rendimiento en tareas de conversación y razonamiento, y se ha convertido en un recurso clave para seguir la evolución de la IA.

Otros benchmarks de LLM

En BRACAI seguimos de cerca el rendimiento de los principales modelos en varios benchmarks.

Si quieres saber más sobre estas pruebas o cómo empezar a aplicar IA en tu empresa, ponte en contacto con nosotros.