¿Qué tendría que tener un modelo para que me salga del que uso hoy?

La foto de mayo 2026, traducida a términos simples.

Hace tres años usaba ChatGPT y estaba feliz con eso. En el medio fui probando las versiones gratuitas de los demás — Gemini, Grok, DeepSeek. Ninguno me capturó del todo.

Hasta que vi lo que la comunidad estaba haciendo con Claude. Me hice una cuenta. Durante un tiempo usé los dos en paralelo. Un día me di cuenta de que hacía semanas no abría GPT. Di de baja la cuenta.

Migrar de un LLM a otro es tan complejo como mudarse de casa. Hay que aprender los tics nuevos, recalibrar prompts, reconfigurar integraciones, recrear hábitos. La pregunta no es si cada par de semanas hay un modelo nuevo arriba en los benchmarks — lo hay. La pregunta es qué tendría que tener un modelo para que me salga del que uso hoy.

Para empezar a responderme, miré la foto actual. Estos son los siete índices que publica Artificial Analysis al 1 de mayo de 2026, con su top 10 y una traducción simple de qué mide cada uno.


Intelligence Index — Capacidad general del modelo

Promedio ponderado de 10 evaluaciones que cubren razonamiento, conocimiento, programación y agentes. Es el índice más cercano a “qué tan capaz es el modelo en general”.

#ModeloScore
1GPT-5.5 (xhigh)60
2Claude Opus 4.7 (max)57
3Gemini 3.1 Pro Preview57
4GPT-5.4 (xhigh)57
5Kimi K2.654
6MiMo-V2.5-Pro54
7Grok 4.353
8Muse Spark52
9Qwen3.6 Max Preview52
10Claude Sonnet 4.6 (max)52

GPT-5.5 lidera por un cabezal. Claude Opus 4.7, Gemini 3.1 Pro y GPT-5.4 quedan empatados un escalón abajo.


Coding Index — Qué tan bien programa

Promedio de Terminal-Bench Hard y SciCode (tareas tipo terminal y problemas científicos en código).

#ModeloScore
1GPT-5.5 (xhigh)59
2GPT-5.4 (xhigh)57
3Gemini 3.1 Pro Preview56
4Claude Opus 4.7 (max)53
5GPT-5.4 mini (xhigh)51
6Claude Sonnet 4.6 (max)51
7Muse Spark47
8DeepSeek V4 Pro (Max)47
9Kimi K2.647
10MiMo-V2.5-Pro46

GPT-5.5 lidera, seguido por GPT-5.4 y Gemini 3.1 Pro. Claude Opus 4.7 está cuarto. Si la prioridad es coding puro, OpenAI tiene la delantera hoy.


Agentic Index — Qué tan bien funciona como agente

Capacidad de ejecutar tareas multi-paso reales con herramientas (GDPval-AA + τ²-Bench Telecom).

#ModeloScore
1GPT-5.5 (xhigh)74
2Claude Opus 4.7 (max)71
3GPT-5.4 (xhigh)68
4MiMo-V2.5-Pro67
5DeepSeek V4 Pro (Max)67
6GLM-5.167
7Kimi K2.666
8Grok 4.366
9Qwen3.6 Max Preview65
10Claude Sonnet 4.6 (max)63

GPT-5.5 lidera, Claude Opus 4.7 segundo. Para tareas agénticas complejas, los dos están muy parejos.


GDPval-AA — Performance en tareas reales de trabajo

Elo basado en preferencia ciega: los modelos resuelven tareas con acceso a web y shell vía Stirrup, un harness open-source.

#ModeloElo
1GPT-5.5 (xhigh)1771
2Claude Opus 4.7 (max)1753
3Claude Sonnet 4.6 (max)1675
4GPT-5.4 (xhigh)1674
5MiMo-V2.5-Pro1572
6DeepSeek V4 Pro (Max)1554
7GLM-5.11535
8MiniMax-M2.71508
9Qwen3.6 Max Preview1505
10Grok 4.31498

Mismos dos al frente: GPT-5.5 y Claude Opus 4.7. Para trabajo agéntico del mundo real, están muy cerca entre sí.


AA-Omniscience — Qué tan confiable es su conocimiento

Premia respuestas correctas, castiga alucinaciones, no penaliza si el modelo dice “no sé”. El score va de –100 a +100; un negativo significa que miente más de lo que acierta.

#ModeloScore
1Gemini 3.1 Pro Preview33
2Claude Opus 4.7 (max)26
3GPT-5.5 (xhigh)20
4Grok 4.318
5Claude Sonnet 4.6 (max)12
6Gemini 3 Flash12
7Qwen3.6 Max Preview10
8Kimi K2.66
9GPT-5.4 (xhigh)6
10Muse Spark4

Acá cambia el liderazgo: Gemini 3.1 Pro lidera con 33, seguido de Claude Opus 4.7 con 26 y GPT-5.5 con 20. Si tu uso depende de conocimiento factual confiable (research, due diligence, periodismo), este índice probablemente te importe más que los anteriores.


Text to Image — Generación de imágenes

Elo basado en votación ciega en Image Arena: a las personas se les muestran dos imágenes generadas por modelos distintos y eligen cuál prefieren.

#ModeloElo
1GPT Image 2 (high)1335
2GPT Image 1.5 (high)1272
3Nano Banana 2 (Gemini 3.1 Flash Image)1261
4Nano Banana Pro (Gemini 3 Pro Image)1216
5FLUX 2 [max]1201
6Seedream 4.01201
7MAI-Image-21195
8FLUX 2 [pro]1186
9grok-imagine-image1181
10FLUX 2 [flex]1181

Otro liderazgo distinto: GPT Image 2 lidera, seguido por GPT Image 1.5 y Nano Banana 2 (Gemini 3.1 Flash Image). Las imágenes son un mercado distinto al de los LLMs de texto.


Text to Video (con audio) — Generación de video

Mismo formato que imagen, pero con video y audio.

#ModeloElo
1Dreamina Seedance 2.0 720p1220
2HappyHorse-1.01218
3SkyReels V41138
4Kling 3.0 Omni 1080p (Pro)1104
5Veo 3.11101
6Kling 3.0 1080p (Pro)1101
7Veo 3.1 Fast1099
8Kling 3.0 720p (Standard)1094
9Kling 3.0 Omni 720p (Standard)1091
10Vidu Q3 Pro1087

Y otro liderazgo más: Dreamina Seedance 2.0 lidera, seguido por HappyHorse-1.0. Acá ni OpenAI ni Anthropic ni Google están al frente.


Lo que me llevo de mirar la foto

Tres cosas:

1. Ningún modelo lidera todas las categorías. GPT-5.5 lidera 4 índices. Gemini 3.1 Pro lidera 1. GPT Image 2 y Dreamina Seedance lideran las suyas. Quien dice “el mejor LLM hoy es X” sin especificar para qué, simplifica de más.

2. Las diferencias entre modelos top son muy poco significativas. Ningún modelo está despegado del pelotón al punto de que su performance, sola, justifique una migración. La distancia entre el primero y el cuarto suele ser de pocos puntos en cada índice — y los rankings se reordenan cada semana.

3. La diferencia que justifica una migración no aparece en estos cuadros. Los benchmarks miden capacidades generales en tareas estandarizadas. Mi caso de uso es específico. Mis prompts están calibrados para un modelo. Mis integraciones también. Que un competidor me supere en el promedio del Intelligence Index no necesariamente significa que va a hacer mejor mi trabajo concreto.


Entonces: ¿qué tendría que tener un modelo para que me salga del que uso hoy?

Mi lista, sin orden de prioridad:

  • Una capacidad nueva que el actual no tiene. No “10% mejor en algo”, sino “puede hacer algo que el otro no puede”. Cuando Claude Code apareció con la capacidad de operar archivos reales y herramientas en una tarea agéntica completa, eso era una capacidad nueva. Ahí migré.

  • Una mejora sustancial en algo que me importa. Si mi trabajo depende del manejo de documentos largos y un modelo nuevo reduce alucinaciones a la mitad en ese escenario, vale evaluarlo. Si la mejora es en un benchmark donde no opero, no.

  • Un cambio en la economía. Un modelo equivalente a 10× menos costo, o un modelo open source que pueda correr on-prem para casos sensibles, es un cambio estructural — no una mejora marginal.

  • Una pérdida de confiabilidad en el actual. Un proveedor que cambia los términos de uso, baja la calidad sin avisar, o entra en crisis, también es una razón legítima para irse.

Si ninguna de estas cuatro cosas pasa, mejor seguir afilando el modelo que ya conozco. La calibración acumulada vale más que un punto extra en un índice.


¿Y vos? Con estas métricas, ¿sentís que tenés que migrar?


Datos: Artificial Analysis · Mayo 2026

Comentarios