LLM Arena: la tabla de los mejores modelos
- Falk Thomassen
- 19 ago
- 1 Min. de lectura
La tabla de LLM Arena es una herramienta clave para evaluar modelos de lenguaje.
Utiliza un sistema de puntuación ELO dinámico que muestra qué modelos destacan en multitarea, razonamiento y uso en el mundo real.
Vamos a verlo con más detalle.
Mejor LLM según el ranking de LLM Arena
Aquà comparamos los modelos más conocidos en la tabla de LLM Arena.

Última actualización: julio de 2025
Empresa | Modelo | Puntos Arena |
Gemini 2.5 | 1474 | |
xAI | Grok-3 | 1438 |
OpenAI | GPT-o3 | 1431 |
Anthropic | Claude 3.7 Sonnet | 1343 |
Meta | Llama 4 | 1292 |
Gemini 2.5 Pro de Google lidera con 1474 puntos, seguido de Grok 4 de xAI (1438) y GPT-o3 de OpenAI (1431).
A continuación están Claude 3.7 Sonnet de Anthropic (1343) y Llama 4 de Meta (1292).
¿Qué es el ranking de LLM Arena?
El ranking LLM Arena fue creada por investigadores de la Universidad de California en Berkeley, dentro del grupo LMSYS (Large Model Systems Organization).
Sirve para comparar modelos de lenguaje (LLMs) y ver cuál responde mejor en una conversación.

Cómo funciona:
Dos modelos responden al mismo prompt de forma anónima
Personas eligen la mejor respuesta según precisión, coherencia y utilidad
La puntuación se actualiza tras cada enfrentamiento
La tabla muestra el rendimiento en tareas de conversación y razonamiento, y se ha convertido en un recurso clave para seguir la evolución de la IA.
Otros benchmarks de LLM
En BRACAI seguimos de cerca el rendimiento de los principales modelos en varios benchmarks.
Si quieres saber más sobre estas pruebas o cómo empezar a aplicar IA en tu empresa, ponte en contacto con nosotros.