Herramientas 14 may. 2026

¿Qué tendría que tener un modelo para que me salga del que uso hoy?

La foto de mayo 2026, traducida a términos simples.

Hace tres años usaba ChatGPT y estaba feliz con eso. En el medio fui probando las versiones gratuitas de los demás — Gemini, Grok, DeepSeek. Ninguno me capturó del todo.

Hasta que vi lo que la comunidad estaba haciendo con Claude. Me hice una cuenta. Durante un tiempo usé los dos en paralelo. Un día me di cuenta de que hacía semanas no abría GPT. Di de baja la cuenta.

Migrar de un LLM a otro es tan complejo como mudarse de casa. Hay que aprender los tics nuevos, recalibrar prompts, reconfigurar integraciones, recrear hábitos. La pregunta no es si cada par de semanas hay un modelo nuevo arriba en los benchmarks — lo hay. La pregunta es qué tendría que tener un modelo para que me salga del que uso hoy.

Para empezar a responderme, miré la foto actual. Estos son los siete índices que publica Artificial Analysis al 1 de mayo de 2026, con su top 10 y una traducción simple de qué mide cada uno.

Intelligence Index — Capacidad general del modelo

Promedio ponderado de 10 evaluaciones que cubren razonamiento, conocimiento, programación y agentes. Es el índice más cercano a “qué tan capaz es el modelo en general”.

#	Modelo	Score
1	GPT-5.5 (xhigh)	60
2	Claude Opus 4.7 (max)	57
3	Gemini 3.1 Pro Preview	57
4	GPT-5.4 (xhigh)	57
5	Kimi K2.6	54
6	MiMo-V2.5-Pro	54
7	Grok 4.3	53
8	Muse Spark	52
9	Qwen3.6 Max Preview	52
10	Claude Sonnet 4.6 (max)	52

GPT-5.5 lidera por un cabezal. Claude Opus 4.7, Gemini 3.1 Pro y GPT-5.4 quedan empatados un escalón abajo.

Coding Index — Qué tan bien programa

Promedio de Terminal-Bench Hard y SciCode (tareas tipo terminal y problemas científicos en código).

#	Modelo	Score
1	GPT-5.5 (xhigh)	59
2	GPT-5.4 (xhigh)	57
3	Gemini 3.1 Pro Preview	56
4	Claude Opus 4.7 (max)	53
5	GPT-5.4 mini (xhigh)	51
6	Claude Sonnet 4.6 (max)	51
7	Muse Spark	47
8	DeepSeek V4 Pro (Max)	47
9	Kimi K2.6	47
10	MiMo-V2.5-Pro	46

GPT-5.5 lidera, seguido por GPT-5.4 y Gemini 3.1 Pro. Claude Opus 4.7 está cuarto. Si la prioridad es coding puro, OpenAI tiene la delantera hoy.

Agentic Index — Qué tan bien funciona como agente

Capacidad de ejecutar tareas multi-paso reales con herramientas (GDPval-AA + τ²-Bench Telecom).

#	Modelo	Score
1	GPT-5.5 (xhigh)	74
2	Claude Opus 4.7 (max)	71
3	GPT-5.4 (xhigh)	68
4	MiMo-V2.5-Pro	67
5	DeepSeek V4 Pro (Max)	67
6	GLM-5.1	67
7	Kimi K2.6	66
8	Grok 4.3	66
9	Qwen3.6 Max Preview	65
10	Claude Sonnet 4.6 (max)	63

GPT-5.5 lidera, Claude Opus 4.7 segundo. Para tareas agénticas complejas, los dos están muy parejos.

GDPval-AA — Performance en tareas reales de trabajo

Elo basado en preferencia ciega: los modelos resuelven tareas con acceso a web y shell vía Stirrup, un harness open-source.

#	Modelo	Elo
1	GPT-5.5 (xhigh)	1771
2	Claude Opus 4.7 (max)	1753
3	Claude Sonnet 4.6 (max)	1675
4	GPT-5.4 (xhigh)	1674
5	MiMo-V2.5-Pro	1572
6	DeepSeek V4 Pro (Max)	1554
7	GLM-5.1	1535
8	MiniMax-M2.7	1508
9	Qwen3.6 Max Preview	1505
10	Grok 4.3	1498

Mismos dos al frente: GPT-5.5 y Claude Opus 4.7. Para trabajo agéntico del mundo real, están muy cerca entre sí.

AA-Omniscience — Qué tan confiable es su conocimiento

Premia respuestas correctas, castiga alucinaciones, no penaliza si el modelo dice “no sé”. El score va de –100 a +100; un negativo significa que miente más de lo que acierta.

#	Modelo	Score
1	Gemini 3.1 Pro Preview	33
2	Claude Opus 4.7 (max)	26
3	GPT-5.5 (xhigh)	20
4	Grok 4.3	18
5	Claude Sonnet 4.6 (max)	12
6	Gemini 3 Flash	12
7	Qwen3.6 Max Preview	10
8	Kimi K2.6	6
9	GPT-5.4 (xhigh)	6
10	Muse Spark	4

Acá cambia el liderazgo: Gemini 3.1 Pro lidera con 33, seguido de Claude Opus 4.7 con 26 y GPT-5.5 con 20. Si tu uso depende de conocimiento factual confiable (research, due diligence, periodismo), este índice probablemente te importe más que los anteriores.

Text to Image — Generación de imágenes

Elo basado en votación ciega en Image Arena: a las personas se les muestran dos imágenes generadas por modelos distintos y eligen cuál prefieren.

#	Modelo	Elo
1	GPT Image 2 (high)	1335
2	GPT Image 1.5 (high)	1272
3	Nano Banana 2 (Gemini 3.1 Flash Image)	1261
4	Nano Banana Pro (Gemini 3 Pro Image)	1216
5	FLUX 2 [max]	1201
6	Seedream 4.0	1201
7	MAI-Image-2	1195
8	FLUX 2 [pro]	1186
9	grok-imagine-image	1181
10	FLUX 2 [flex]	1181

Otro liderazgo distinto: GPT Image 2 lidera, seguido por GPT Image 1.5 y Nano Banana 2 (Gemini 3.1 Flash Image). Las imágenes son un mercado distinto al de los LLMs de texto.

Text to Video (con audio) — Generación de video

Mismo formato que imagen, pero con video y audio.

#	Modelo	Elo
1	Dreamina Seedance 2.0 720p	1220
2	HappyHorse-1.0	1218
3	SkyReels V4	1138
4	Kling 3.0 Omni 1080p (Pro)	1104
5	Veo 3.1	1101
6	Kling 3.0 1080p (Pro)	1101
7	Veo 3.1 Fast	1099
8	Kling 3.0 720p (Standard)	1094
9	Kling 3.0 Omni 720p (Standard)	1091
10	Vidu Q3 Pro	1087

Y otro liderazgo más: Dreamina Seedance 2.0 lidera, seguido por HappyHorse-1.0. Acá ni OpenAI ni Anthropic ni Google están al frente.

Lo que me llevo de mirar la foto

Tres cosas:

1. Ningún modelo lidera todas las categorías. GPT-5.5 lidera 4 índices. Gemini 3.1 Pro lidera 1. GPT Image 2 y Dreamina Seedance lideran las suyas. Quien dice “el mejor LLM hoy es X” sin especificar para qué, simplifica de más.

2. Las diferencias entre modelos top son muy poco significativas. Ningún modelo está despegado del pelotón al punto de que su performance, sola, justifique una migración. La distancia entre el primero y el cuarto suele ser de pocos puntos en cada índice — y los rankings se reordenan cada semana.

3. La diferencia que justifica una migración no aparece en estos cuadros. Los benchmarks miden capacidades generales en tareas estandarizadas. Mi caso de uso es específico. Mis prompts están calibrados para un modelo. Mis integraciones también. Que un competidor me supere en el promedio del Intelligence Index no necesariamente significa que va a hacer mejor mi trabajo concreto.

Entonces: ¿qué tendría que tener un modelo para que me salga del que uso hoy?

Mi lista, sin orden de prioridad:

Una capacidad nueva que el actual no tiene. No “10% mejor en algo”, sino “puede hacer algo que el otro no puede”. Cuando Claude Code apareció con la capacidad de operar archivos reales y herramientas en una tarea agéntica completa, eso era una capacidad nueva. Ahí migré.
Una mejora sustancial en algo que me importa. Si mi trabajo depende del manejo de documentos largos y un modelo nuevo reduce alucinaciones a la mitad en ese escenario, vale evaluarlo. Si la mejora es en un benchmark donde no opero, no.
Un cambio en la economía. Un modelo equivalente a 10× menos costo, o un modelo open source que pueda correr on-prem para casos sensibles, es un cambio estructural — no una mejora marginal.
Una pérdida de confiabilidad en el actual. Un proveedor que cambia los términos de uso, baja la calidad sin avisar, o entra en crisis, también es una razón legítima para irse.

Si ninguna de estas cuatro cosas pasa, mejor seguir afilando el modelo que ya conozco. La calibración acumulada vale más que un punto extra en un índice.

¿Y vos? Con estas métricas, ¿sentís que tenés que migrar?

Datos: Artificial Analysis · Mayo 2026