全球大模型能力排名榜单
·
🌐 全球大模型能力排名榜单
2026年5月 · 综合 Intelligence Index · GPQA Diamond · 代码 · 推理
数据来源:Artificial Analysis · LLM Stats · Vellum AI
🟣 S 梯队 — 顶尖前沿
| 排名 | 模型 | 开发商 | 综合指数 | GPQA | 开源 | 擅长领域 |
|---|---|---|---|---|---|---|
| 🥇 1 | GPT-5.5 (xhigh) | OpenAI | 60 | 93% | ❌ | 综合、代码、推理 |
| 🥈 2 | GPT-5.5 (high) | OpenAI | 59 | 92% | ❌ | 综合、多模态 |
| 🥉 3 | Claude Opus 4.7(推理增强) | Anthropic | 57 | 92% | ❌ | 推理、写作、代码 |
| 4 | Gemini 3.1 Pro Preview | 57 | 91% | ❌ | 代码、多模态 | |
| 5 | Claude Mythos Preview | Anthropic | 56 | 95% ★ | ❌ | 推理全球第一 |
★ Claude Mythos Preview 的 GPQA Diamond 得分 95%,为当前全球最高。
🟢 A 梯队 — 强力竞争者
| 排名 | 模型 | 开发商 | 综合指数 | GPQA | 开源 | 擅长领域 |
|---|---|---|---|---|---|---|
| 6 | Grok 4 | xAI | 55 | 89% | ❌ | 综合、速度 |
| 7 | Kimi K2.6 | 月之暗面 | 54 | 91% | ✅ | 开源第一、推理 |
| 8 | GLM-5 | 智谱AI | 53 | 87% | ❌ | 中文、代码 |
| NEW 9 | DeepSeek V4-Pro | 深度求索 | 53 | 90.1% | ✅ | 代码、性价比极高 |
| 10 | DeepSeek V3.2 | 深度求索 | 52 | 86% | ✅ | 开源、性价比 |
💡 DeepSeek V4-Pro:2026年4月24日发布,1.6T 参数 / 49B 激活,支持 100万 token 上下文,MIT 开源,定价仅 $3.48/M tokens,比 GPT-5.5 便宜约 8 倍。
🟡 B 梯队 — 高效主力
| 排名 | 模型 | 开发商 | 综合指数 | GPQA | 开源 | 擅长领域 |
|---|---|---|---|---|---|---|
| 11 | Claude Sonnet 4.6 | Anthropic | 51 | 84% | ❌ | 效率、写作 |
| 12 | Gemini 3.1 Flash | 49 | 82% | ❌ | 速度、性价比 | |
| 13 | GPT-5 (standard) | OpenAI | 48 | 81% | ❌ | 综合 |
| 14 | DeepSeek V4-Flash | 深度求索 | 47 | 83% | ✅ | 速度、极低成本 |
| 15 | GLM-4.7 Thinking | 智谱AI | 47 | 83% | ✅ | 开源代码 |
| 16 | Llama 4 Maverick | Meta | 46 | 78% | ✅ | 开源多模态 |
| 17 | Qwen3-235B (MoE) | 阿里巴巴 | 45 | 79% | ✅ | 中文开源 |
⚪ C 梯队 — 实用选择
| 排名 | 模型 | 开发商 | 综合指数 | GPQA | 开源 | 擅长领域 |
|---|---|---|---|---|---|---|
| 18 | DeepSeek R1 | 深度求索 | 44 | 76% | ✅ | 推理、开源 |
| 19 | Mistral Large 3 | Mistral | 41 | 72% | ✅ | 欧洲、开源 |
| 20 | GPT-4o | OpenAI | 38 | 67% | ❌ | 多模态经典 |
| 21 | Llama 3.3 70B | Meta | 34 | 58% | ✅ | 本地部署 |
📌 关键结论
| 维度 | 最强模型 |
|---|---|
| 综合能力第一 | GPT-5.5 (xhigh) · 指数 60 |
| 推理能力第一 | Claude Mythos Preview · GPQA 95% |
| 开源综合第一 | Kimi K2.6 · 指数 54 |
| 性价比之王 | DeepSeek V4-Pro · $3.48/M tokens |
| 国产最强闭源 | GLM-5 · 指数 53 |
| 本地部署推荐 | Llama 3.3 70B / DeepSeek V4-Flash |
说明: 综合指数基于 Artificial Analysis Intelligence Index,融合 GPQA Diamond(博士级推理)、SWE-Bench(代码)、AIME 2025(数学)、MMLU-Pro(知识)等多项基准。排名为预览版数据,仅供参考,实际表现因任务类型而异。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)