Comparativa de modelos de IA — calidad, precio y open source
Los principales modelos de IA de EE.UU., Europa y China, comparados por calidad (benchmarks de mercado), coste en dólares por millón de tokens y si son open source.
Datos a 2026-07-01 · investigación automática (Artificial Analysis, LMArena, precios oficiales) — verificar antes de decidir.
📊 Cómo se mide la calidad — tres índices
Mostramos la calidad de tres formas complementarias. Así se compone cada índice antes de ver las gráficas:
① Calidad de Zendoric (0-100) = media a tercios de SWE-bench-Pro (33% · desarrollo de software real, cotejado con el fabricante) + LMArena (33% · preferencia humana, Elo normalizado) + Terminal-Bench (33% · capacidad agéntica en terminal). Si a un modelo le falta una de las tres, su peso se reparte entre las presentes (se exigen al menos dos).
② AA Index (Artificial Analysis Intelligence Index, 0-100) = índice compuesto y más amplio (razonamiento, ciencia, código, matemáticas). Ofrece una segunda lectura: según cómo se mida, el orden de los fabricantes cambia.
③ Ciberseguridad (0-100) = capacidad en tareas cyber expert (protocolo duro «unguided pass@1»: vuln-research y explotación realista). Usamos una métrica no saturada (el top ronda 71, no 100, y deja ver el recorrido), no el Cybench «pass@k» que la frontera ya satura. Fuentes: UK AISI, NIST-CAISI, CVE-Bench. La encuadramos como capacidad y riesgo, no como ranking ofensivo; donde no hay eval directa se estima «est.».
📈 Evolución de la Calidad de Zendoric (fabricantes frontera)
Índice de calidad (0-100) de los fabricantes punteros (su mejor modelo), últimos 24 meses. Línea punteada = calidad estimada por AA Index (labs sin SWE-bench-Pro). Se actualiza cada día.
📈 Evolución del AA Index (fabricantes frontera)
AA Index (Artificial Analysis Intelligence Index, 0-100) de los fabricantes punteros (su mejor modelo), últimos 24 meses. Es un índice compuesto y más amplio (razonamiento, ciencia, código, matemáticas) que nuestro índice. La serie histórica está reconstruida anclando la trayectoria de cada fabricante a su AA actual. Se actualiza cada día.
🛡️ Evolución en ciberseguridad (fabricantes frontera)
Índice de ciberseguridad (0-100) del mejor modelo de cada fabricante, últimos 24 meses. Métrica: tareas cyber EXPERT en protocolo duro «unguided pass@1» (sin pistas, un intento; vuln-research y explotación realista). La elegimos porque NO está saturada — el top ronda 71, no 100, así que discrimina y deja ver el recorrido (descartamos el Cybench «pass@k», donde la frontera ya hace ~100%). Fuentes: UK AISI (GPT-5.5 71,4 % vs Anthropic preview 68,6 %), NIST-CAISI, CVE-Bench. Confianza alta solo en OpenAI/Anthropic (medidos por AISI); el resto, imputado por proximidad → toda la serie va marcada «est.». Lo encuadramos como capacidad y RIESGO a gobernar, no como ranking ofensivo. Se actualiza cada día.
💰 Calidad de Zendoric frente a coste
Modelos punteros de los fabricantes con mejor calidad (un fabricante puede tener varios, p.ej. Anthropic: Opus 4.8 y Fable 5). Más ARRIBA = más calidad; más a la IZQUIERDA = más barato (eje log). Lo ideal, arriba-izquierda. Punto hueco = calidad estimada (AA Index). Color por fabricante.
💰 AA Index frente a coste
Mismo formato que el de calidad/coste, pero el eje vertical es el AA Index. Más ARRIBA = más capacidad; más a la IZQUIERDA = más barato (eje log). Punto hueco = AA estimado (Terminal-Bench/SWE-Pro). Color por fabricante.
🏆 Calidad de Zendoric (desarrollo SW + arena + agéntica)
| Modelo | Calidad Zendoric | SWE-bench-Pro | LMArena | Terminal-Bench | LiveCodeBench | GPQA | ARC-AGI-2 |
|---|---|---|---|---|---|---|---|
| 🇺🇸 Claude Fable 5Anthropic · USA | 90.1 | 80.3 | 1515 | — | 89.78 | 92.6 | — |
| 🇺🇸 GPT-5.6 Sol (preview)OpenAI · USA | 78.9 | 63.0 | 1470 | 88.8 | — | 87 | — |
| 🇨🇳 GLM-5.2Zhipu AI · China | 76.9 | 62.1 | 1475 | 81.0 | 82.8 | 78 | 7 |
| 🇺🇸 Claude Opus 4.8Anthropic · USA | 76.5 | 69.2 | 1455 | 82.7 | 88.8 | 84 | 14 |
| 🇺🇸 GPT-5.5OpenAI · USA | 76.3 | 58.6 | 1475 | 82.7 | — | 85 | 16 |
| 🇨🇳 Qwen3.7-MaxAlibaba · China | 72.6 | 60.6 | 1475 | 69.7 | 91.6 | 81 | 7 |
| 🇺🇸 Claude Sonnet 5Anthropic · USA | 71.8 | 63.2 | — | 80.4 | — | 83 | 12 |
| 🇨🇳 Kimi K2.6Moonshot AI · China | 68.4 | 58.6 | 1460 | 66.7 | 89.6 | 78 | 9 |
| 🇨🇳 DeepSeek V4-ProDeepSeek · China | 66.1 | 55.4 | 1450 | 67.9 | 93.5 | 82 | 9 |
| 🇺🇸 Gemini 3 ProGoogle · USA | 65.8 | 43.3 | 1501 | 54.2 | — | 84 | 15 |
| 🇺🇸 Claude Sonnet 4.6Anthropic · USA | 62.0 | — | 1430 | 59.1 | — | 80 | 9 |
| 🇺🇸 MAI-1-previewMicrosoft · USA | 49.4 | 52.8 | — | 46.0 | 87.7 | 84.2 | — |
| 🇺🇸 Claude Mythos 5Anthropic · USA | — | 80.0 | — | — | — | — | — |
| 🇺🇸 Llama 4 Maverick (llama-4-maverick-17b-128e-instruct)Meta · USA | — | — | 1370 | — | 43.4 | 70 | 5 |
| 🇺🇸 Grok 4.3xAI · USA | — | — | 1496 | — | 79.4 | 84 | 16 |
| 🇪🇺 Mistral Large 3Mistral AI · Europa | — | — | 1418 | — | 34.4 | 72 | 6 |
| 🇪🇺 Magistral Medium 1.2Mistral AI · Europa | — | — | — | — | 75.0 | 76.26 | 4 |
Calidad de Zendoric = media a tercios de SWE-bench-Pro (desarrollo de SW) + LMArena (preferencia humana) + Terminal-Bench (capacidad agéntica), las tres con fuente fiable; si falta alguna se reparte su peso entre las presentes (mínimo dos; si no, «—»). LiveCodeBench y GPQA se muestran como referencia (orientativas, pueden estar incompletas) pero NO entran en el índice; ARC-AGI-2 (arcprize.org) mide progreso hacia AGI: los modelos puntúan MUY bajo → aún lejos de AGI. %, salvo LMArena (Elo).
💵 Economía (USD / 1M tokens)
| Modelo | Input | Cache | Output |
|---|---|---|---|
| 🇺🇸 Claude Fable 5Anthropic · USA | $10.0 | $1.0 | $50.0 |
| 🇺🇸 GPT-5.6 Sol (preview)OpenAI · USA | $5.0 | $0.5 | $30.0 |
| 🇨🇳 GLM-5.2Zhipu AI · China | $0.6 | $0.26 | $2.2 |
| 🇺🇸 Claude Opus 4.8Anthropic · USA | $5.0 | $0.5 | $25.0 |
| 🇺🇸 GPT-5.5OpenAI · USA | $5.0 | $0.5 | $30.0 |
| 🇨🇳 Qwen3.7-MaxAlibaba · China | $1.2 | $0.25 | $6.0 |
| 🇺🇸 Claude Sonnet 5Anthropic · USA | hasta 31 ago 2026 $2.0 desde 1 sep 2026 $3.0 | hasta 31 ago 2026 $0.2 desde 1 sep 2026 $0.3 | hasta 31 ago 2026 $10.0 desde 1 sep 2026 $15.0 |
| 🇨🇳 Kimi K2.6Moonshot AI · China | $0.6 | $0.16 | $2.5 |
| 🇨🇳 DeepSeek V4-ProDeepSeek · China | $0.28 | $0.03 | $0.87 |
| 🇺🇸 Gemini 3 ProGoogle · USA | $1.25 | $0.31 | $10.0 |
| 🇺🇸 Claude Sonnet 4.6Anthropic · USA | $3.0 | $0.3 | $15.0 |
| 🇺🇸 MAI-1-previewMicrosoft · USA | — | — | — |
| 🇺🇸 Claude Mythos 5Anthropic · USA | $10.0 | $1.0 | $50.0 |
| 🇺🇸 Llama 4 Maverick (llama-4-maverick-17b-128e-instruct)Meta · USA | $0.2 | — | $0.6 |
| 🇺🇸 Grok 4.3xAI · USA | $3.0 | $0.75 | $15.0 |
| 🇪🇺 Mistral Large 3Mistral AI · Europa | $2.0 | — | $6.0 |
| 🇪🇺 Magistral Medium 1.2Mistral AI · Europa | $0.5 | — | $1.5 |
Claude Sonnet 5: subida de tarifas programada (mismo modelo) — precio reducido hasta el 31 ago 2026 y tarifa estándar desde el 1 sep 2026.
🔓 Open source y variedad
| Modelo | Open source | Licencia | Variedad |
|---|---|---|---|
| 🇺🇸 Claude Fable 5Anthropic · USA | No | Propietario | Propietario (solo API) |
| 🇺🇸 GPT-5.6 Sol (preview)OpenAI · USA | No | Propietario | Propietario (solo API) |
| 🇨🇳 GLM-5.2Zhipu AI · China | Sí | MIT | Open-weight (pesos abiertos) |
| 🇺🇸 Claude Opus 4.8Anthropic · USA | No | Propietario | Propietario (solo API) |
| 🇺🇸 GPT-5.5OpenAI · USA | No | Propietario | Propietario (solo API) |
| 🇨🇳 Qwen3.7-MaxAlibaba · China | No | Propietario | Propietario (solo API) |
| 🇺🇸 Claude Sonnet 5Anthropic · USA | No | Propietario | Propietario (solo API) |
| 🇨🇳 Kimi K2.6Moonshot AI · China | Sí | Modified MIT | Open-weight (pesos abiertos) |
| 🇨🇳 DeepSeek V4-ProDeepSeek · China | Sí | MIT | Open-weight (pesos abiertos) |
| 🇺🇸 Gemini 3 ProGoogle · USA | No | Propietario | Propietario (solo API) |
| 🇺🇸 Claude Sonnet 4.6Anthropic · USA | No | Propietario | Propietario (solo API) |
| 🇺🇸 MAI-1-previewMicrosoft · USA | No | Propietario | Propietario (solo API) |
| 🇺🇸 Claude Mythos 5Anthropic · USA | No | Propietario | Propietario (solo API) |
| 🇺🇸 Llama 4 Maverick (llama-4-maverick-17b-128e-instruct)Meta · USA | Sí | Llama 4 Community | Open-weight (pesos abiertos) |
| 🇺🇸 Grok 4.3xAI · USA | No | Propietario | Propietario (solo API) |
| 🇪🇺 Mistral Large 3Mistral AI · Europa | Sí | Apache-2.0 | Open-weight (pesos abiertos) |
| 🇪🇺 Magistral Medium 1.2Mistral AI · Europa | Sí | Apache-2.0 | Open-weight (pesos abiertos) |
🖥️ Open source para tu hardware
Pequeños/medianos que corren en un equipo propio (portátil/PC/Mac). Calidad = Artificial Analysis Intelligence Index (0-100; calidad del output), la medida con mejor cobertura en modelos open pequeños (LMArena no lista los sub-32B). Memoria estimada en cuantización 4-bit (Q4) y 8-bit (Q8); en Apple Silicon es memoria UNIFICADA (RAM=VRAM).
| Modelo | Calidad (AA Index) | GPQA | Params | RAM Q4 | RAM Q8 | GPU | CPU / Mac | Licencia |
|---|---|---|---|---|---|---|---|---|
| Qwen3.5-27BAlibaba | 42 | 85.5 | 27B | 17 GB | 32 GB | ≥24 GB | Limitado (mejor GPU/Mac ≥32 GB) | Apache-2.0 |
| Gemma 4 31BGoogle | 39 | 84.3 | 31B | 18 GB | 35 GB | ≥24 GB | Limitado (mejor GPU/Mac ≥32 GB) | Gemma |
| Qwen3.5-35B-A3BAlibaba | 37 | 84.2 | 35B | 21 GB | 40 GB | ≥24 GB | Limitado (mejor GPU/Mac ≥32 GB) | Apache-2.0 |
| Gemma 4 26B A4BGoogle | 31 | 82.3 | 26B | 15 GB | 29 GB | ≥16 GB | Limitado (mejor GPU/Mac ≥32 GB) | Gemma |
| NVIDIA Nemotron-Cascade-2-30B-A3BNVIDIA | 28 | 76.1 | 30B | 18 GB | 34 GB | ≥24 GB | Limitado (mejor GPU/Mac ≥32 GB) | NVIDIA Open Model |
| gpt-oss-20bOpenAI | 24 | 71.5 | 20B | 13 GB | 25 GB | ≥16 GB | Limitado (mejor GPU/Mac ≥32 GB) | Apache-2.0 |
| Gemma 4 12BGoogle | 22 | 78.8 | 12B | 8 GB | 15 GB | ≥8 GB | Sí (CPU lento · Mac 16 GB) | Gemma |
| Gemma 4 E4BGoogle | 19 | 58.6 | 4B | 6 GB | 10 GB | ≥8 GB | Sí (CPU/Mac, fluido) | Gemma |
| Gemma 4 E2BGoogle | 15 | 43.4 | 2B | 4 GB | 7 GB | ≥8 GB | Sí (CPU/Mac, fluido) | Gemma |
🗄️ Open source grande (servidor / multi-GPU)
Modelos open potentes pero que necesitan servidor o varias GPU. Calidad = LMArena Elo (preferencia humana sobre el output, fuente lmarena.ai), que sí cubre los modelos grandes. En MoE la memoria cuenta el total de parámetros (todos los expertos se cargan). Memoria estimada en cuantización 4-bit (Q4) y 8-bit (Q8); en Apple Silicon es memoria UNIFICADA (RAM=VRAM).
| Modelo | Calidad (LMArena) | GPQA | Params | RAM Q4 | RAM Q8 | GPU | CPU / Mac | Licencia |
|---|---|---|---|---|---|---|---|---|
| DeepSeek-V4-ProDeepSeek | 1465 | 90.1 | 1600B | 882 GB | 1762 GB | 12× 80 GB (servidor) | No (servidor GPU) | MIT |
| Kimi K2.6Moonshot AI | 1460 | 90.5 | 1100B | 552 GB | 1102 GB | 7× 80 GB (servidor) | No (servidor GPU) | Modified MIT |
| Qwen3.5-397B-A17BAlibaba | 1450 | 88.4 | 397B | 220 GB | 438 GB | 3× 80 GB (servidor) | No (servidor GPU) | Apache-2.0 |
| Llama 4 Maverick (llama-4-maverick-17b-128e-instruct)Meta | 1420 | 69.8 | 400B | 222 GB | 442 GB | 3× 80 GB (servidor) | No (servidor GPU) | Llama 4 Community |
| Mistral Large 3Mistral AI | 1416 | 43.9 | 675B | 373 GB | 744 GB | 5× 80 GB (servidor) | No (servidor GPU) | Apache-2.0 |
| GLM-5.2Zhipu AI | 1360 | 91.2 | 744B | 411 GB | 820 GB | 6× 80 GB (servidor) | No (servidor GPU) | MIT |
| gpt-oss-120bOpenAI | 1353 | 80.1 | 117B | 66 GB | 130 GB | ≥80 GB | No (servidor GPU) | Apache-2.0 |