全球大模型能力排名榜单

殒翼天使

798人浏览 · 2026-05-09 22:45:34

殒翼天使 · 2026-05-09 22:45:34 发布

🌐 全球大模型能力排名榜单

2026年5月 · 综合 Intelligence Index · GPQA Diamond · 代码 · 推理
数据来源：Artificial Analysis · LLM Stats · Vellum AI

🟣 S 梯队 — 顶尖前沿

排名	模型	开发商	综合指数	GPQA	开源	擅长领域
🥇 1	GPT-5.5 (xhigh)	OpenAI	60	93%	❌	综合、代码、推理
🥈 2	GPT-5.5 (high)	OpenAI	59	92%	❌	综合、多模态
🥉 3	Claude Opus 4.7（推理增强）	Anthropic	57	92%	❌	推理、写作、代码
4	Gemini 3.1 Pro Preview	Google	57	91%	❌	代码、多模态
5	Claude Mythos Preview	Anthropic	56	95% ★	❌	推理全球第一

★ Claude Mythos Preview 的 GPQA Diamond 得分 95%，为当前全球最高。

🟢 A 梯队 — 强力竞争者

排名	模型	开发商	综合指数	GPQA	开源	擅长领域
6	Grok 4	xAI	55	89%	❌	综合、速度
7	Kimi K2.6	月之暗面	54	91%	✅	开源第一、推理
8	GLM-5	智谱AI	53	87%	❌	中文、代码
NEW 9	DeepSeek V4-Pro	深度求索	53	90.1%	✅	代码、性价比极高
10	DeepSeek V3.2	深度求索	52	86%	✅	开源、性价比

💡 DeepSeek V4-Pro：2026年4月24日发布，1.6T 参数 / 49B 激活，支持 100万 token 上下文，MIT 开源，定价仅 $3.48/M tokens，比 GPT-5.5 便宜约 8 倍。

🟡 B 梯队 — 高效主力

排名	模型	开发商	综合指数	GPQA	开源	擅长领域
11	Claude Sonnet 4.6	Anthropic	51	84%	❌	效率、写作
12	Gemini 3.1 Flash	Google	49	82%	❌	速度、性价比
13	GPT-5 (standard)	OpenAI	48	81%	❌	综合
14	DeepSeek V4-Flash	深度求索	47	83%	✅	速度、极低成本
15	GLM-4.7 Thinking	智谱AI	47	83%	✅	开源代码
16	Llama 4 Maverick	Meta	46	78%	✅	开源多模态
17	Qwen3-235B (MoE)	阿里巴巴	45	79%	✅	中文开源

⚪ C 梯队 — 实用选择

排名	模型	开发商	综合指数	GPQA	开源	擅长领域
18	DeepSeek R1	深度求索	44	76%	✅	推理、开源
19	Mistral Large 3	Mistral	41	72%	✅	欧洲、开源
20	GPT-4o	OpenAI	38	67%	❌	多模态经典
21	Llama 3.3 70B	Meta	34	58%	✅	本地部署

📌 关键结论

维度	最强模型
综合能力第一	GPT-5.5 (xhigh) · 指数 60
推理能力第一	Claude Mythos Preview · GPQA 95%
开源综合第一	Kimi K2.6 · 指数 54
性价比之王	DeepSeek V4-Pro · $3.48/M tokens
国产最强闭源	GLM-5 · 指数 53
本地部署推荐	Llama 3.3 70B / DeepSeek V4-Flash

说明： 综合指数基于 Artificial Analysis Intelligence Index，融合 GPQA Diamond（博士级推理）、SWE-Bench（代码）、AIME 2025（数学）、MMLU-Pro（知识）等多项基准。排名为预览版数据，仅供参考，实际表现因任务类型而异。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI 行业的焦虑正在全球蔓延

AtomGit开源社区

# 基于HarmonyOS的五子棋对战游戏设计与实现

本文详细介绍了基于HarmonyOS的五子棋对战游戏开发过程，采用ArkTS语言实现，包含主菜单、难度选择、对战和规则说明等功能模块。重点阐述了AI对战算法设计、声明式UI实现和HarmonyOS应用架构，通过三种难度级别（随机落子、混合策略和完整评估算法）提升游戏可玩性。项目采用分层架构设计，实现了表现层、业务逻辑层和数据层的分离，为HarmonyOS游戏开发提供了实践参考。关键词：Harmon