Comparativa de modelos de IA — calidad, precio y open source

Los principales modelos de IA de EE.UU., Europa y China, comparados por calidad (benchmarks de mercado), coste en dólares por millón de tokens y si son open source.

Datos a 2026-07-01 · investigación automática (Artificial Analysis, LMArena, precios oficiales) — verificar antes de decidir.

📊 Cómo se mide la calidad — tres índices

Mostramos la calidad de tres formas complementarias. Así se compone cada índice antes de ver las gráficas:

① Calidad de Zendoric (0-100) = media a tercios de SWE-bench-Pro (33% · desarrollo de software real, cotejado con el fabricante) + LMArena (33% · preferencia humana, Elo normalizado) + Terminal-Bench (33% · capacidad agéntica en terminal). Si a un modelo le falta una de las tres, su peso se reparte entre las presentes (se exigen al menos dos).

② AA Index (Artificial Analysis Intelligence Index, 0-100) = índice compuesto y más amplio (razonamiento, ciencia, código, matemáticas). Ofrece una segunda lectura: según cómo se mida, el orden de los fabricantes cambia.

③ Ciberseguridad (0-100) = capacidad en tareas cyber expert (protocolo duro «unguided pass@1»: vuln-research y explotación realista). Usamos una métrica no saturada (el top ronda 71, no 100, y deja ver el recorrido), no el Cybench «pass@k» que la frontera ya satura. Fuentes: UK AISI, NIST-CAISI, CVE-Bench. La encuadramos como capacidad y riesgo, no como ranking ofensivo; donde no hay eval directa se estima «est.».

📈 Evolución de la Calidad de Zendoric (fabricantes frontera)

Índice de calidad (0-100) de los fabricantes punteros (su mejor modelo), últimos 24 meses. Línea punteada = calidad estimada por AA Index (labs sin SWE-bench-Pro). Se actualiza cada día.

AnthropicOpenAIxAIZhipu AIAlibabaMoonshot AIDeepSeekGoogleMicrosoftMistral AIMeta

📈 Evolución del AA Index (fabricantes frontera)

AA Index (Artificial Analysis Intelligence Index, 0-100) de los fabricantes punteros (su mejor modelo), últimos 24 meses. Es un índice compuesto y más amplio (razonamiento, ciencia, código, matemáticas) que nuestro índice. La serie histórica está reconstruida anclando la trayectoria de cada fabricante a su AA actual. Se actualiza cada día.

AnthropicOpenAIxAIZhipu AIAlibabaDeepSeekMoonshot AIGoogleMicrosoftMistral AIMeta

🛡️ Evolución en ciberseguridad (fabricantes frontera)

Índice de ciberseguridad (0-100) del mejor modelo de cada fabricante, últimos 24 meses. Métrica: tareas cyber EXPERT en protocolo duro «unguided pass@1» (sin pistas, un intento; vuln-research y explotación realista). La elegimos porque NO está saturada — el top ronda 71, no 100, así que discrimina y deja ver el recorrido (descartamos el Cybench «pass@k», donde la frontera ya hace ~100%). Fuentes: UK AISI (GPT-5.5 71,4 % vs Anthropic preview 68,6 %), NIST-CAISI, CVE-Bench. Confianza alta solo en OpenAI/Anthropic (medidos por AISI); el resto, imputado por proximidad → toda la serie va marcada «est.». Lo encuadramos como capacidad y RIESGO a gobernar, no como ranking ofensivo. Se actualiza cada día.

OpenAIAnthropicZhipu AIGoogleMoonshot AIMicrosoftAlibabaxAIDeepSeekMistral AIMeta

💰 Calidad de Zendoric frente a coste

Modelos punteros de los fabricantes con mejor calidad (un fabricante puede tener varios, p.ej. Anthropic: Opus 4.8 y Fable 5). Más ARRIBA = más calidad; más a la IZQUIERDA = más barato (eje log). Lo ideal, arriba-izquierda. Punto hueco = calidad estimada (AA Index). Color por fabricante.

OpenAIAnthropicGoogleDeepSeekAlibabaMoonshot AIZhipu AIxAIMistral AIMeta

💰 AA Index frente a coste

Mismo formato que el de calidad/coste, pero el eje vertical es el AA Index. Más ARRIBA = más capacidad; más a la IZQUIERDA = más barato (eje log). Punto hueco = AA estimado (Terminal-Bench/SWE-Pro). Color por fabricante.

OpenAIAnthropicGoogleMetaxAIMistral AIDeepSeekAlibabaMoonshot AIZhipu AI

🏆 Calidad de Zendoric (desarrollo SW + arena + agéntica)

Modelo	Calidad Zendoric	SWE-bench-Pro	LMArena	Terminal-Bench	LiveCodeBench	GPQA	ARC-AGI-2
🇺🇸 Claude Fable 5Anthropic · USA	90.1	80.3	1515	—	89.78	92.6	—
🇺🇸 GPT-5.6 Sol (preview)OpenAI · USA	78.9	63.0	1470	88.8	—	87	—
🇨🇳 GLM-5.2Zhipu AI · China	76.9	62.1	1475	81.0	82.8	78	7
🇺🇸 Claude Opus 4.8Anthropic · USA	76.5	69.2	1455	82.7	88.8	84	14
🇺🇸 GPT-5.5OpenAI · USA	76.3	58.6	1475	82.7	—	85	16
🇨🇳 Qwen3.7-MaxAlibaba · China	72.6	60.6	1475	69.7	91.6	81	7
🇺🇸 Claude Sonnet 5Anthropic · USA	71.8	63.2	—	80.4	—	83	12
🇨🇳 Kimi K2.6Moonshot AI · China	68.4	58.6	1460	66.7	89.6	78	9
🇨🇳 DeepSeek V4-ProDeepSeek · China	66.1	55.4	1450	67.9	93.5	82	9
🇺🇸 Gemini 3 ProGoogle · USA	65.8	43.3	1501	54.2	—	84	15
🇺🇸 Claude Sonnet 4.6Anthropic · USA	62.0	—	1430	59.1	—	80	9
🇺🇸 MAI-1-previewMicrosoft · USA	49.4	52.8	—	46.0	87.7	84.2	—
🇺🇸 Claude Mythos 5Anthropic · USA	—	80.0	—	—	—	—	—
🇺🇸 Llama 4 Maverick (llama-4-maverick-17b-128e-instruct)Meta · USA	—	—	1370	—	43.4	70	5
🇺🇸 Grok 4.3xAI · USA	—	—	1496	—	79.4	84	16
🇪🇺 Mistral Large 3Mistral AI · Europa	—	—	1418	—	34.4	72	6
🇪🇺 Magistral Medium 1.2Mistral AI · Europa	—	—	—	—	75.0	76.26	4

Calidad de Zendoric = media a tercios de SWE-bench-Pro (desarrollo de SW) + LMArena (preferencia humana) + Terminal-Bench (capacidad agéntica), las tres con fuente fiable; si falta alguna se reparte su peso entre las presentes (mínimo dos; si no, «—»). LiveCodeBench y GPQA se muestran como referencia (orientativas, pueden estar incompletas) pero NO entran en el índice; ARC-AGI-2 (arcprize.org) mide progreso hacia AGI: los modelos puntúan MUY bajo → aún lejos de AGI. %, salvo LMArena (Elo).

💵 Economía (USD / 1M tokens)

Modelo	Input	Cache	Output
🇺🇸 Claude Fable 5Anthropic · USA	$10.0	$1.0	$50.0
🇺🇸 GPT-5.6 Sol (preview)OpenAI · USA	$5.0	$0.5	$30.0
🇨🇳 GLM-5.2Zhipu AI · China	$0.6	$0.26	$2.2
🇺🇸 Claude Opus 4.8Anthropic · USA	$5.0	$0.5	$25.0
🇺🇸 GPT-5.5OpenAI · USA	$5.0	$0.5	$30.0
🇨🇳 Qwen3.7-MaxAlibaba · China	$1.2	$0.25	$6.0
🇺🇸 Claude Sonnet 5Anthropic · USA	hasta 31 ago 2026 $2.0 desde 1 sep 2026 $3.0	hasta 31 ago 2026 $0.2 desde 1 sep 2026 $0.3	hasta 31 ago 2026 $10.0 desde 1 sep 2026 $15.0
🇨🇳 Kimi K2.6Moonshot AI · China	$0.6	$0.16	$2.5
🇨🇳 DeepSeek V4-ProDeepSeek · China	$0.28	$0.03	$0.87
🇺🇸 Gemini 3 ProGoogle · USA	$1.25	$0.31	$10.0
🇺🇸 Claude Sonnet 4.6Anthropic · USA	$3.0	$0.3	$15.0
🇺🇸 MAI-1-previewMicrosoft · USA	—	—	—
🇺🇸 Claude Mythos 5Anthropic · USA	$10.0	$1.0	$50.0
🇺🇸 Llama 4 Maverick (llama-4-maverick-17b-128e-instruct)Meta · USA	$0.2	—	$0.6
🇺🇸 Grok 4.3xAI · USA	$3.0	$0.75	$15.0
🇪🇺 Mistral Large 3Mistral AI · Europa	$2.0	—	$6.0
🇪🇺 Magistral Medium 1.2Mistral AI · Europa	$0.5	—	$1.5

Claude Sonnet 5: subida de tarifas programada (mismo modelo) — precio reducido hasta el 31 ago 2026 y tarifa estándar desde el 1 sep 2026.

🔓 Open source y variedad

Modelo	Open source	Licencia	Variedad
🇺🇸 Claude Fable 5Anthropic · USA	No	Propietario	Propietario (solo API)
🇺🇸 GPT-5.6 Sol (preview)OpenAI · USA	No	Propietario	Propietario (solo API)
🇨🇳 GLM-5.2Zhipu AI · China	Sí	MIT	Open-weight (pesos abiertos)
🇺🇸 Claude Opus 4.8Anthropic · USA	No	Propietario	Propietario (solo API)
🇺🇸 GPT-5.5OpenAI · USA	No	Propietario	Propietario (solo API)
🇨🇳 Qwen3.7-MaxAlibaba · China	No	Propietario	Propietario (solo API)
🇺🇸 Claude Sonnet 5Anthropic · USA	No	Propietario	Propietario (solo API)
🇨🇳 Kimi K2.6Moonshot AI · China	Sí	Modified MIT	Open-weight (pesos abiertos)
🇨🇳 DeepSeek V4-ProDeepSeek · China	Sí	MIT	Open-weight (pesos abiertos)
🇺🇸 Gemini 3 ProGoogle · USA	No	Propietario	Propietario (solo API)
🇺🇸 Claude Sonnet 4.6Anthropic · USA	No	Propietario	Propietario (solo API)
🇺🇸 MAI-1-previewMicrosoft · USA	No	Propietario	Propietario (solo API)
🇺🇸 Claude Mythos 5Anthropic · USA	No	Propietario	Propietario (solo API)
🇺🇸 Llama 4 Maverick (llama-4-maverick-17b-128e-instruct)Meta · USA	Sí	Llama 4 Community	Open-weight (pesos abiertos)
🇺🇸 Grok 4.3xAI · USA	No	Propietario	Propietario (solo API)
🇪🇺 Mistral Large 3Mistral AI · Europa	Sí	Apache-2.0	Open-weight (pesos abiertos)
🇪🇺 Magistral Medium 1.2Mistral AI · Europa	Sí	Apache-2.0	Open-weight (pesos abiertos)

🖥️ Open source para tu hardware

Pequeños/medianos que corren en un equipo propio (portátil/PC/Mac). Calidad = Artificial Analysis Intelligence Index (0-100; calidad del output), la medida con mejor cobertura en modelos open pequeños (LMArena no lista los sub-32B). Memoria estimada en cuantización 4-bit (Q4) y 8-bit (Q8); en Apple Silicon es memoria UNIFICADA (RAM=VRAM).

Modelo	Calidad (AA Index)	GPQA	Params	RAM Q4	RAM Q8	GPU	CPU / Mac	Licencia
Qwen3.5-27BAlibaba	42	85.5	27B	17 GB	32 GB	≥24 GB	Limitado (mejor GPU/Mac ≥32 GB)	Apache-2.0
Gemma 4 31BGoogle	39	84.3	31B	18 GB	35 GB	≥24 GB	Limitado (mejor GPU/Mac ≥32 GB)	Gemma
Qwen3.5-35B-A3BAlibaba	37	84.2	35B	21 GB	40 GB	≥24 GB	Limitado (mejor GPU/Mac ≥32 GB)	Apache-2.0
Gemma 4 26B A4BGoogle	31	82.3	26B	15 GB	29 GB	≥16 GB	Limitado (mejor GPU/Mac ≥32 GB)	Gemma
NVIDIA Nemotron-Cascade-2-30B-A3BNVIDIA	28	76.1	30B	18 GB	34 GB	≥24 GB	Limitado (mejor GPU/Mac ≥32 GB)	NVIDIA Open Model
gpt-oss-20bOpenAI	24	71.5	20B	13 GB	25 GB	≥16 GB	Limitado (mejor GPU/Mac ≥32 GB)	Apache-2.0
Gemma 4 12BGoogle	22	78.8	12B	8 GB	15 GB	≥8 GB	Sí (CPU lento · Mac 16 GB)	Gemma
Gemma 4 E4BGoogle	19	58.6	4B	6 GB	10 GB	≥8 GB	Sí (CPU/Mac, fluido)	Gemma
Gemma 4 E2BGoogle	15	43.4	2B	4 GB	7 GB	≥8 GB	Sí (CPU/Mac, fluido)	Gemma

🗄️ Open source grande (servidor / multi-GPU)

Modelos open potentes pero que necesitan servidor o varias GPU. Calidad = LMArena Elo (preferencia humana sobre el output, fuente lmarena.ai), que sí cubre los modelos grandes. En MoE la memoria cuenta el total de parámetros (todos los expertos se cargan). Memoria estimada en cuantización 4-bit (Q4) y 8-bit (Q8); en Apple Silicon es memoria UNIFICADA (RAM=VRAM).

Modelo	Calidad (LMArena)	GPQA	Params	RAM Q4	RAM Q8	GPU	CPU / Mac	Licencia
DeepSeek-V4-ProDeepSeek	1465	90.1	1600B	882 GB	1762 GB	12× 80 GB (servidor)	No (servidor GPU)	MIT
Kimi K2.6Moonshot AI	1460	90.5	1100B	552 GB	1102 GB	7× 80 GB (servidor)	No (servidor GPU)	Modified MIT
Qwen3.5-397B-A17BAlibaba	1450	88.4	397B	220 GB	438 GB	3× 80 GB (servidor)	No (servidor GPU)	Apache-2.0
Llama 4 Maverick (llama-4-maverick-17b-128e-instruct)Meta	1420	69.8	400B	222 GB	442 GB	3× 80 GB (servidor)	No (servidor GPU)	Llama 4 Community
Mistral Large 3Mistral AI	1416	43.9	675B	373 GB	744 GB	5× 80 GB (servidor)	No (servidor GPU)	Apache-2.0
GLM-5.2Zhipu AI	1360	91.2	744B	411 GB	820 GB	6× 80 GB (servidor)	No (servidor GPU)	MIT
gpt-oss-120bOpenAI	1353	80.1	117B	66 GB	130 GB	≥80 GB	No (servidor GPU)	Apache-2.0