Zendoric

Comparativa de modelos de IA — calidad, precio y open source

Los principales modelos de IA de EE.UU., Europa y China, comparados por calidad (benchmarks de mercado), coste en dólares por millón de tokens y si son open source.

Datos a 2026-07-01 · investigación automática (Artificial Analysis, LMArena, precios oficiales) — verificar antes de decidir.

📊 Cómo se mide la calidad — tres índices

Mostramos la calidad de tres formas complementarias. Así se compone cada índice antes de ver las gráficas:

① Calidad de Zendoric (0-100) = media a tercios de SWE-bench-Pro (33% · desarrollo de software real, cotejado con el fabricante) + LMArena (33% · preferencia humana, Elo normalizado) + Terminal-Bench (33% · capacidad agéntica en terminal). Si a un modelo le falta una de las tres, su peso se reparte entre las presentes (se exigen al menos dos).

② AA Index (Artificial Analysis Intelligence Index, 0-100) = índice compuesto y más amplio (razonamiento, ciencia, código, matemáticas). Ofrece una segunda lectura: según cómo se mida, el orden de los fabricantes cambia.

③ Ciberseguridad (0-100) = capacidad en tareas cyber expert (protocolo duro «unguided pass@1»: vuln-research y explotación realista). Usamos una métrica no saturada (el top ronda 71, no 100, y deja ver el recorrido), no el Cybench «pass@k» que la frontera ya satura. Fuentes: UK AISI, NIST-CAISI, CVE-Bench. La encuadramos como capacidad y riesgo, no como ranking ofensivo; donde no hay eval directa se estima «est.».

📈 Evolución de la Calidad de Zendoric (fabricantes frontera)

Índice de calidad (0-100) de los fabricantes punteros (su mejor modelo), últimos 24 meses. Línea punteada = calidad estimada por AA Index (labs sin SWE-bench-Pro). Se actualiza cada día.

AnthropicOpenAIxAIZhipu AIAlibabaMoonshot AIDeepSeekGoogleMicrosoftMistral AIMeta
26405467819524-0824-1125-0225-0525-0825-1126-0226-0526-07Sonnet 3.5 v2Sonnet 3.7Opus 4Opus 4.7Opus 4.8Fable 5Claude Fable 5o1o3GPT-5GPT-5.5GPT-5.6 SolGPT-5.6 Sol (preview)Grok 4Grok 4.3Grok 4.3 (est.)GLM-4-PlusGLM-4.5GLM-5GLM-5.2GLM-5.2Qwen2.5Qwen3Qwen3.5Qwen3.7-MaxQwen3.7-MaxKimi k1.5Kimi K2Kimi K2.6Kimi K2.6V3R1V3.2V4-ProDeepSeek V4-ProGemini 2.0Gemini 2.5Gemini 3 ProGemini 3 ProMAI-1MAI-1-previewLarge 3Mistral Large 3 (est.)Llama 4Llama 4 Maverick (llama-4-maverick-17b-128e-instruct) (est.)

📈 Evolución del AA Index (fabricantes frontera)

AA Index (Artificial Analysis Intelligence Index, 0-100) de los fabricantes punteros (su mejor modelo), últimos 24 meses. Es un índice compuesto y más amplio (razonamiento, ciencia, código, matemáticas) que nuestro índice. La serie histórica está reconstruida anclando la trayectoria de cada fabricante a su AA actual. Se actualiza cada día.

AnthropicOpenAIxAIZhipu AIAlibabaDeepSeekMoonshot AIGoogleMicrosoftMistral AIMeta
8193142546524-0824-1125-0225-0525-0825-1126-0226-0526-07Sonnet 3.5 v2Sonnet 3.7Opus 4Opus 4.7Opus 4.8Fable 5Claude Fable 5o1o3GPT-5GPT-5.5GPT-5.6 SolGPT-5.6 Sol (preview)Grok 4Grok 4.3Grok 4.3GLM-4-PlusGLM-4.5GLM-5GLM-5.2GLM-5.2Qwen2.5Qwen3Qwen3.5Qwen3.7-MaxQwen3.7-MaxV3R1V3.2V4-ProDeepSeek V4-ProKimi k1.5Kimi K2Kimi K2.6Kimi K2.6Gemini 2.0Gemini 2.5Gemini 3 ProGemini 3 ProMAI-1MAI-1-previewLarge 3Mistral Large 3Llama 4Llama 4 Maverick (llama-4-maverick-17b-128e-instruct)

🛡️ Evolución en ciberseguridad (fabricantes frontera)

Índice de ciberseguridad (0-100) del mejor modelo de cada fabricante, últimos 24 meses. Métrica: tareas cyber EXPERT en protocolo duro «unguided pass@1» (sin pistas, un intento; vuln-research y explotación realista). La elegimos porque NO está saturada — el top ronda 71, no 100, así que discrimina y deja ver el recorrido (descartamos el Cybench «pass@k», donde la frontera ya hace ~100%). Fuentes: UK AISI (GPT-5.5 71,4 % vs Anthropic preview 68,6 %), NIST-CAISI, CVE-Bench. Confianza alta solo en OpenAI/Anthropic (medidos por AISI); el resto, imputado por proximidad → toda la serie va marcada «est.». Lo encuadramos como capacidad y RIESGO a gobernar, no como ranking ofensivo. Se actualiza cada día.

OpenAIAnthropicZhipu AIGoogleMoonshot AIMicrosoftAlibabaxAIDeepSeekMistral AIMeta
18304253647624-0824-1125-0225-0525-0825-1126-0226-0526-07o1o3GPT-5GPT-5.5GPT-5.6 SolGPT-5.6 Sol (est.)Sonnet 3.5 v2Sonnet 3.7Opus 4Opus 4.7Opus 4.8Fable 5Claude Mythos 5 (est.)GLM-4-PlusGLM-4.5GLM-5GLM-5.2GLM-5.2 (est.)Gemini 2.0Gemini 2.5Gemini 3 ProGemini 3 Pro (est.)Kimi k1.5Kimi K2Kimi K2.6Kimi K2.6 (est.)MAI-1MAI-1 (est.)Qwen2.5Qwen3Qwen3.5Qwen3.7-MaxQwen3.7-Max (est.)Grok 4Grok 4.3Grok 4.3 (est.)V3R1V3.2V4-ProDeepSeek V4-Pro (est.)Large 3Mistral Large 3 (est.)Llama 4Llama 4 (est.)

💰 Calidad de Zendoric frente a coste

Modelos punteros de los fabricantes con mejor calidad (un fabricante puede tener varios, p.ej. Anthropic: Opus 4.8 y Fable 5). Más ARRIBA = más calidad; más a la IZQUIERDA = más barato (eje log). Lo ideal, arriba-izquierda. Punto hueco = calidad estimada (AA Index). Color por fabricante.

OpenAIAnthropicGoogleDeepSeekAlibabaMoonshot AIZhipu AIxAIMistral AIMeta
Zona ideal264054678195$0.5$1$2$5$10$20$50Coste de salida ($/1M tokens · escala log)Claude Fable 5GPT-5.6 Sol (preview)Claude Opus 4.8GPT-5.5GLM-5.2Grok 4.3 (est.)Qwen3.7-MaxClaude Sonnet 5Kimi K2.6DeepSeek V4-ProGemini 3 ProClaude Sonnet 4.6Mistral Large 3 (est.)Llama 4 Maverick (llama-4-maverick-17b-128e-instruct) (est.)

💰 AA Index frente a coste

Mismo formato que el de calidad/coste, pero el eje vertical es el AA Index. Más ARRIBA = más capacidad; más a la IZQUIERDA = más barato (eje log). Punto hueco = AA estimado (Terminal-Bench/SWE-Pro). Color por fabricante.

OpenAIAnthropicGoogleMetaxAIMistral AIDeepSeekAlibabaMoonshot AIZhipu AI
Zona ideal61830415365$0.5$1$2$5$10$20$50Coste de salida ($/1M tokens · escala log)AA IndexClaude Fable 5Claude Mythos 5GPT-5.6 Sol (preview)Claude Opus 4.8GPT-5.5Claude Sonnet 5Grok 4.3GLM-5.2Qwen3.7-MaxDeepSeek V4-ProKimi K2.6Gemini 3 ProClaude Sonnet 4.6Mistral Large 3Llama 4 Maverick (llama-4-maverick-17b-128e-instruct)Magistral Medium 1.2

🏆 Calidad de Zendoric (desarrollo SW + arena + agéntica)

ModeloCalidad ZendoricSWE-bench-ProLMArenaTerminal-BenchLiveCodeBenchGPQAARC-AGI-2
🇺🇸 Claude Fable 5Anthropic · USA90.180.3151589.7892.6
🇺🇸 GPT-5.6 Sol (preview)OpenAI · USA78.963.0147088.887
🇨🇳 GLM-5.2Zhipu AI · China76.962.1147581.082.8787
🇺🇸 Claude Opus 4.8Anthropic · USA76.569.2145582.788.88414
🇺🇸 GPT-5.5OpenAI · USA76.358.6147582.78516
🇨🇳 Qwen3.7-MaxAlibaba · China72.660.6147569.791.6817
🇺🇸 Claude Sonnet 5Anthropic · USA71.863.280.48312
🇨🇳 Kimi K2.6Moonshot AI · China68.458.6146066.789.6789
🇨🇳 DeepSeek V4-ProDeepSeek · China66.155.4145067.993.5829
🇺🇸 Gemini 3 ProGoogle · USA65.843.3150154.28415
🇺🇸 Claude Sonnet 4.6Anthropic · USA62.0143059.1809
🇺🇸 MAI-1-previewMicrosoft · USA49.452.846.087.784.2
🇺🇸 Claude Mythos 5Anthropic · USA80.0
🇺🇸 Llama 4 Maverick (llama-4-maverick-17b-128e-instruct)Meta · USA137043.4705
🇺🇸 Grok 4.3xAI · USA149679.48416
🇪🇺 Mistral Large 3Mistral AI · Europa141834.4726
🇪🇺 Magistral Medium 1.2Mistral AI · Europa75.076.264

Calidad de Zendoric = media a tercios de SWE-bench-Pro (desarrollo de SW) + LMArena (preferencia humana) + Terminal-Bench (capacidad agéntica), las tres con fuente fiable; si falta alguna se reparte su peso entre las presentes (mínimo dos; si no, «—»). LiveCodeBench y GPQA se muestran como referencia (orientativas, pueden estar incompletas) pero NO entran en el índice; ARC-AGI-2 (arcprize.org) mide progreso hacia AGI: los modelos puntúan MUY bajo → aún lejos de AGI. %, salvo LMArena (Elo).

💵 Economía (USD / 1M tokens)

ModeloInputCacheOutput
🇺🇸 Claude Fable 5Anthropic · USA$10.0$1.0$50.0
🇺🇸 GPT-5.6 Sol (preview)OpenAI · USA$5.0$0.5$30.0
🇨🇳 GLM-5.2Zhipu AI · China$0.6$0.26$2.2
🇺🇸 Claude Opus 4.8Anthropic · USA$5.0$0.5$25.0
🇺🇸 GPT-5.5OpenAI · USA$5.0$0.5$30.0
🇨🇳 Qwen3.7-MaxAlibaba · China$1.2$0.25$6.0
🇺🇸 Claude Sonnet 5Anthropic · USAhasta 31 ago 2026 $2.0
desde 1 sep 2026 $3.0
hasta 31 ago 2026 $0.2
desde 1 sep 2026 $0.3
hasta 31 ago 2026 $10.0
desde 1 sep 2026 $15.0
🇨🇳 Kimi K2.6Moonshot AI · China$0.6$0.16$2.5
🇨🇳 DeepSeek V4-ProDeepSeek · China$0.28$0.03$0.87
🇺🇸 Gemini 3 ProGoogle · USA$1.25$0.31$10.0
🇺🇸 Claude Sonnet 4.6Anthropic · USA$3.0$0.3$15.0
🇺🇸 MAI-1-previewMicrosoft · USA
🇺🇸 Claude Mythos 5Anthropic · USA$10.0$1.0$50.0
🇺🇸 Llama 4 Maverick (llama-4-maverick-17b-128e-instruct)Meta · USA$0.2$0.6
🇺🇸 Grok 4.3xAI · USA$3.0$0.75$15.0
🇪🇺 Mistral Large 3Mistral AI · Europa$2.0$6.0
🇪🇺 Magistral Medium 1.2Mistral AI · Europa$0.5$1.5

Claude Sonnet 5: subida de tarifas programada (mismo modelo) — precio reducido hasta el 31 ago 2026 y tarifa estándar desde el 1 sep 2026.

🔓 Open source y variedad

ModeloOpen sourceLicenciaVariedad
🇺🇸 Claude Fable 5Anthropic · USANoPropietarioPropietario (solo API)
🇺🇸 GPT-5.6 Sol (preview)OpenAI · USANoPropietarioPropietario (solo API)
🇨🇳 GLM-5.2Zhipu AI · ChinaMITOpen-weight (pesos abiertos)
🇺🇸 Claude Opus 4.8Anthropic · USANoPropietarioPropietario (solo API)
🇺🇸 GPT-5.5OpenAI · USANoPropietarioPropietario (solo API)
🇨🇳 Qwen3.7-MaxAlibaba · ChinaNoPropietarioPropietario (solo API)
🇺🇸 Claude Sonnet 5Anthropic · USANoPropietarioPropietario (solo API)
🇨🇳 Kimi K2.6Moonshot AI · ChinaModified MITOpen-weight (pesos abiertos)
🇨🇳 DeepSeek V4-ProDeepSeek · ChinaMITOpen-weight (pesos abiertos)
🇺🇸 Gemini 3 ProGoogle · USANoPropietarioPropietario (solo API)
🇺🇸 Claude Sonnet 4.6Anthropic · USANoPropietarioPropietario (solo API)
🇺🇸 MAI-1-previewMicrosoft · USANoPropietarioPropietario (solo API)
🇺🇸 Claude Mythos 5Anthropic · USANoPropietarioPropietario (solo API)
🇺🇸 Llama 4 Maverick (llama-4-maverick-17b-128e-instruct)Meta · USALlama 4 CommunityOpen-weight (pesos abiertos)
🇺🇸 Grok 4.3xAI · USANoPropietarioPropietario (solo API)
🇪🇺 Mistral Large 3Mistral AI · EuropaApache-2.0Open-weight (pesos abiertos)
🇪🇺 Magistral Medium 1.2Mistral AI · EuropaApache-2.0Open-weight (pesos abiertos)

🖥️ Open source para tu hardware

Pequeños/medianos que corren en un equipo propio (portátil/PC/Mac). Calidad = Artificial Analysis Intelligence Index (0-100; calidad del output), la medida con mejor cobertura en modelos open pequeños (LMArena no lista los sub-32B). Memoria estimada en cuantización 4-bit (Q4) y 8-bit (Q8); en Apple Silicon es memoria UNIFICADA (RAM=VRAM).

ModeloCalidad (AA Index)GPQAParamsRAM Q4RAM Q8GPUCPU / MacLicencia
Qwen3.5-27BAlibaba4285.527B17 GB32 GB≥24 GBLimitado (mejor GPU/Mac ≥32 GB)Apache-2.0
Gemma 4 31BGoogle3984.331B18 GB35 GB≥24 GBLimitado (mejor GPU/Mac ≥32 GB)Gemma
Qwen3.5-35B-A3BAlibaba3784.235B21 GB40 GB≥24 GBLimitado (mejor GPU/Mac ≥32 GB)Apache-2.0
Gemma 4 26B A4BGoogle3182.326B15 GB29 GB≥16 GBLimitado (mejor GPU/Mac ≥32 GB)Gemma
NVIDIA Nemotron-Cascade-2-30B-A3BNVIDIA2876.130B18 GB34 GB≥24 GBLimitado (mejor GPU/Mac ≥32 GB)NVIDIA Open Model
gpt-oss-20bOpenAI2471.520B13 GB25 GB≥16 GBLimitado (mejor GPU/Mac ≥32 GB)Apache-2.0
Gemma 4 12BGoogle2278.812B8 GB15 GB≥8 GBSí (CPU lento · Mac 16 GB)Gemma
Gemma 4 E4BGoogle1958.64B6 GB10 GB≥8 GBSí (CPU/Mac, fluido)Gemma
Gemma 4 E2BGoogle1543.42B4 GB7 GB≥8 GBSí (CPU/Mac, fluido)Gemma

🗄️ Open source grande (servidor / multi-GPU)

Modelos open potentes pero que necesitan servidor o varias GPU. Calidad = LMArena Elo (preferencia humana sobre el output, fuente lmarena.ai), que sí cubre los modelos grandes. En MoE la memoria cuenta el total de parámetros (todos los expertos se cargan). Memoria estimada en cuantización 4-bit (Q4) y 8-bit (Q8); en Apple Silicon es memoria UNIFICADA (RAM=VRAM).

ModeloCalidad (LMArena)GPQAParamsRAM Q4RAM Q8GPUCPU / MacLicencia
DeepSeek-V4-ProDeepSeek146590.11600B882 GB1762 GB12× 80 GB (servidor)No (servidor GPU)MIT
Kimi K2.6Moonshot AI146090.51100B552 GB1102 GB7× 80 GB (servidor)No (servidor GPU)Modified MIT
Qwen3.5-397B-A17BAlibaba145088.4397B220 GB438 GB3× 80 GB (servidor)No (servidor GPU)Apache-2.0
Llama 4 Maverick (llama-4-maverick-17b-128e-instruct)Meta142069.8400B222 GB442 GB3× 80 GB (servidor)No (servidor GPU)Llama 4 Community
Mistral Large 3Mistral AI141643.9675B373 GB744 GB5× 80 GB (servidor)No (servidor GPU)Apache-2.0
GLM-5.2Zhipu AI136091.2744B411 GB820 GB6× 80 GB (servidor)No (servidor GPU)MIT
gpt-oss-120bOpenAI135380.1117B66 GB130 GB≥80 GBNo (servidor GPU)Apache-2.0