¿Qué tendría que tener un modelo para que me salga del que uso hoy?
La foto de mayo 2026, traducida a términos simples.
Hace tres años usaba ChatGPT y estaba feliz con eso. En el medio fui probando las versiones gratuitas de los demás — Gemini, Grok, DeepSeek. Ninguno me capturó del todo.
Hasta que vi lo que la comunidad estaba haciendo con Claude. Me hice una cuenta. Durante un tiempo usé los dos en paralelo. Un día me di cuenta de que hacía semanas no abría GPT. Di de baja la cuenta.
Migrar de un LLM a otro es tan complejo como mudarse de casa. Hay que aprender los tics nuevos, recalibrar prompts, reconfigurar integraciones, recrear hábitos. La pregunta no es si cada par de semanas hay un modelo nuevo arriba en los benchmarks — lo hay. La pregunta es qué tendría que tener un modelo para que me salga del que uso hoy.
Para empezar a responderme, miré la foto actual. Estos son los siete índices que publica Artificial Analysis al 1 de mayo de 2026, con su top 10 y una traducción simple de qué mide cada uno.
Intelligence Index — Capacidad general del modelo
Promedio ponderado de 10 evaluaciones que cubren razonamiento, conocimiento, programación y agentes. Es el índice más cercano a “qué tan capaz es el modelo en general”.
| # | Modelo | Score |
|---|---|---|
| 1 | GPT-5.5 (xhigh) | 60 |
| 2 | Claude Opus 4.7 (max) | 57 |
| 3 | Gemini 3.1 Pro Preview | 57 |
| 4 | GPT-5.4 (xhigh) | 57 |
| 5 | Kimi K2.6 | 54 |
| 6 | MiMo-V2.5-Pro | 54 |
| 7 | Grok 4.3 | 53 |
| 8 | Muse Spark | 52 |
| 9 | Qwen3.6 Max Preview | 52 |
| 10 | Claude Sonnet 4.6 (max) | 52 |
GPT-5.5 lidera por un cabezal. Claude Opus 4.7, Gemini 3.1 Pro y GPT-5.4 quedan empatados un escalón abajo.
Coding Index — Qué tan bien programa
Promedio de Terminal-Bench Hard y SciCode (tareas tipo terminal y problemas científicos en código).
| # | Modelo | Score |
|---|---|---|
| 1 | GPT-5.5 (xhigh) | 59 |
| 2 | GPT-5.4 (xhigh) | 57 |
| 3 | Gemini 3.1 Pro Preview | 56 |
| 4 | Claude Opus 4.7 (max) | 53 |
| 5 | GPT-5.4 mini (xhigh) | 51 |
| 6 | Claude Sonnet 4.6 (max) | 51 |
| 7 | Muse Spark | 47 |
| 8 | DeepSeek V4 Pro (Max) | 47 |
| 9 | Kimi K2.6 | 47 |
| 10 | MiMo-V2.5-Pro | 46 |
GPT-5.5 lidera, seguido por GPT-5.4 y Gemini 3.1 Pro. Claude Opus 4.7 está cuarto. Si la prioridad es coding puro, OpenAI tiene la delantera hoy.
Agentic Index — Qué tan bien funciona como agente
Capacidad de ejecutar tareas multi-paso reales con herramientas (GDPval-AA + τ²-Bench Telecom).
| # | Modelo | Score |
|---|---|---|
| 1 | GPT-5.5 (xhigh) | 74 |
| 2 | Claude Opus 4.7 (max) | 71 |
| 3 | GPT-5.4 (xhigh) | 68 |
| 4 | MiMo-V2.5-Pro | 67 |
| 5 | DeepSeek V4 Pro (Max) | 67 |
| 6 | GLM-5.1 | 67 |
| 7 | Kimi K2.6 | 66 |
| 8 | Grok 4.3 | 66 |
| 9 | Qwen3.6 Max Preview | 65 |
| 10 | Claude Sonnet 4.6 (max) | 63 |
GPT-5.5 lidera, Claude Opus 4.7 segundo. Para tareas agénticas complejas, los dos están muy parejos.
GDPval-AA — Performance en tareas reales de trabajo
Elo basado en preferencia ciega: los modelos resuelven tareas con acceso a web y shell vía Stirrup, un harness open-source.
| # | Modelo | Elo |
|---|---|---|
| 1 | GPT-5.5 (xhigh) | 1771 |
| 2 | Claude Opus 4.7 (max) | 1753 |
| 3 | Claude Sonnet 4.6 (max) | 1675 |
| 4 | GPT-5.4 (xhigh) | 1674 |
| 5 | MiMo-V2.5-Pro | 1572 |
| 6 | DeepSeek V4 Pro (Max) | 1554 |
| 7 | GLM-5.1 | 1535 |
| 8 | MiniMax-M2.7 | 1508 |
| 9 | Qwen3.6 Max Preview | 1505 |
| 10 | Grok 4.3 | 1498 |
Mismos dos al frente: GPT-5.5 y Claude Opus 4.7. Para trabajo agéntico del mundo real, están muy cerca entre sí.
AA-Omniscience — Qué tan confiable es su conocimiento
Premia respuestas correctas, castiga alucinaciones, no penaliza si el modelo dice “no sé”. El score va de –100 a +100; un negativo significa que miente más de lo que acierta.
| # | Modelo | Score |
|---|---|---|
| 1 | Gemini 3.1 Pro Preview | 33 |
| 2 | Claude Opus 4.7 (max) | 26 |
| 3 | GPT-5.5 (xhigh) | 20 |
| 4 | Grok 4.3 | 18 |
| 5 | Claude Sonnet 4.6 (max) | 12 |
| 6 | Gemini 3 Flash | 12 |
| 7 | Qwen3.6 Max Preview | 10 |
| 8 | Kimi K2.6 | 6 |
| 9 | GPT-5.4 (xhigh) | 6 |
| 10 | Muse Spark | 4 |
Acá cambia el liderazgo: Gemini 3.1 Pro lidera con 33, seguido de Claude Opus 4.7 con 26 y GPT-5.5 con 20. Si tu uso depende de conocimiento factual confiable (research, due diligence, periodismo), este índice probablemente te importe más que los anteriores.
Text to Image — Generación de imágenes
Elo basado en votación ciega en Image Arena: a las personas se les muestran dos imágenes generadas por modelos distintos y eligen cuál prefieren.
| # | Modelo | Elo |
|---|---|---|
| 1 | GPT Image 2 (high) | 1335 |
| 2 | GPT Image 1.5 (high) | 1272 |
| 3 | Nano Banana 2 (Gemini 3.1 Flash Image) | 1261 |
| 4 | Nano Banana Pro (Gemini 3 Pro Image) | 1216 |
| 5 | FLUX 2 [max] | 1201 |
| 6 | Seedream 4.0 | 1201 |
| 7 | MAI-Image-2 | 1195 |
| 8 | FLUX 2 [pro] | 1186 |
| 9 | grok-imagine-image | 1181 |
| 10 | FLUX 2 [flex] | 1181 |
Otro liderazgo distinto: GPT Image 2 lidera, seguido por GPT Image 1.5 y Nano Banana 2 (Gemini 3.1 Flash Image). Las imágenes son un mercado distinto al de los LLMs de texto.
Text to Video (con audio) — Generación de video
Mismo formato que imagen, pero con video y audio.
| # | Modelo | Elo |
|---|---|---|
| 1 | Dreamina Seedance 2.0 720p | 1220 |
| 2 | HappyHorse-1.0 | 1218 |
| 3 | SkyReels V4 | 1138 |
| 4 | Kling 3.0 Omni 1080p (Pro) | 1104 |
| 5 | Veo 3.1 | 1101 |
| 6 | Kling 3.0 1080p (Pro) | 1101 |
| 7 | Veo 3.1 Fast | 1099 |
| 8 | Kling 3.0 720p (Standard) | 1094 |
| 9 | Kling 3.0 Omni 720p (Standard) | 1091 |
| 10 | Vidu Q3 Pro | 1087 |
Y otro liderazgo más: Dreamina Seedance 2.0 lidera, seguido por HappyHorse-1.0. Acá ni OpenAI ni Anthropic ni Google están al frente.
Lo que me llevo de mirar la foto
Tres cosas:
1. Ningún modelo lidera todas las categorías. GPT-5.5 lidera 4 índices. Gemini 3.1 Pro lidera 1. GPT Image 2 y Dreamina Seedance lideran las suyas. Quien dice “el mejor LLM hoy es X” sin especificar para qué, simplifica de más.
2. Las diferencias entre modelos top son muy poco significativas. Ningún modelo está despegado del pelotón al punto de que su performance, sola, justifique una migración. La distancia entre el primero y el cuarto suele ser de pocos puntos en cada índice — y los rankings se reordenan cada semana.
3. La diferencia que justifica una migración no aparece en estos cuadros. Los benchmarks miden capacidades generales en tareas estandarizadas. Mi caso de uso es específico. Mis prompts están calibrados para un modelo. Mis integraciones también. Que un competidor me supere en el promedio del Intelligence Index no necesariamente significa que va a hacer mejor mi trabajo concreto.
Entonces: ¿qué tendría que tener un modelo para que me salga del que uso hoy?
Mi lista, sin orden de prioridad:
-
Una capacidad nueva que el actual no tiene. No “10% mejor en algo”, sino “puede hacer algo que el otro no puede”. Cuando Claude Code apareció con la capacidad de operar archivos reales y herramientas en una tarea agéntica completa, eso era una capacidad nueva. Ahí migré.
-
Una mejora sustancial en algo que me importa. Si mi trabajo depende del manejo de documentos largos y un modelo nuevo reduce alucinaciones a la mitad en ese escenario, vale evaluarlo. Si la mejora es en un benchmark donde no opero, no.
-
Un cambio en la economía. Un modelo equivalente a 10× menos costo, o un modelo open source que pueda correr on-prem para casos sensibles, es un cambio estructural — no una mejora marginal.
-
Una pérdida de confiabilidad en el actual. Un proveedor que cambia los términos de uso, baja la calidad sin avisar, o entra en crisis, también es una razón legítima para irse.
Si ninguna de estas cuatro cosas pasa, mejor seguir afilando el modelo que ya conozco. La calibración acumulada vale más que un punto extra en un índice.
¿Y vos? Con estas métricas, ¿sentís que tenés que migrar?
Datos: Artificial Analysis · Mayo 2026
Comentarios