主流大模型全维度权威对比总表

千里之行，始于足下585

467人浏览 · 2026-06-12 11:01:31

千里之行，始于足下585 · 2026-06-12 11:01:31 发布

标注规范：【官方官宣】=品牌官方发布数据；【第三方权威榜单】=公开可查询专业测评平台；【无公开数据】=厂商未对外公示，不虚构填补

对比大类	细分项目	Kimi K2.6	DeepSeek V4 Pro	GLM-5.1	通义千问 Qwen3.6-Plus	豆包	GPT-5.4	GPT-5.5	数据溯源来源
基础信息板块	正式发布时间	2026.04.20【官方官宣】	2026.04.24【官方官宣】	2026.03.27【官方官宣】	2026.04.03【官方官宣】	持续迭代更新	2025年末	2026.03	各品牌官方发布公告
	研发主体	月之暗面	深度求索	智谱AI	阿里达摩院	字节跳动	OpenAI	OpenAI	企业官方资质公示页面
	开源授权状态	完整开源，修改MIT协议，支持商用	完整开源，MIT商用许可	部分开源，商用受限	闭源，仅开放API调用	主模型闭源，仅Seed-OSS基础模型开源	闭源	闭源	HuggingFace官方仓库+品牌官网
长文本核心参数	官方标称上下文Token	262144（256K）	262144（256K）	204800（200K）	131072（128K）	32768（32K）	204800	1048576	月之暗面官方文档 https://platform.moonshot.cn/docs
	可承载文字量级	约200万字	约200万字	约150万字	约90万字	约25万字	约150万字	约800万字	各模型官方功能介绍页面
	长文本信息召回率	92%【官方官宣】	85%【第三方实测】	【无公开数据】	【无公开数据】	【无公开数据】	【无公开数据】	【无公开数据】	Kimi K2.6版本官方发布博客
商用付费体系	月度基础会员价格	49元/月【官方官宣】	99元/月【官方官宣】	89元/月【官方官宣】	无固定月费，按量计费	无正规加速VIP通道	海外订阅计费	海外订阅计费	各平台官方会员购买页面
	月度会员Agent调用额度	60次	不限次数	100次	按量计费	基础功能免费	按量计费	按量计费	官方套餐详细说明
	API输入单价/百万token	$0.60【官方官宣】	$0.145【官方官宣】	$1.40【官方官宣】	$0.30【官方官宣】	未对外完整公开	海外定价	海外定价	品牌官方API价目表
	API输出单价/百万token	$2.50【官方官宣】	$1.74【官方官宣】	$4.40【官方官宣】	$1.20【官方官宣】	未对外完整公开	海外定价	海外定价	品牌官方API价目表
代码专项评测 SWE系列榜单	SWE-Bench Pro得分	58.6%【官方官宣】	52.3%【第三方实测】	48.0%【第三方实测】	50.0%【第三方实测】	【无公开数据】	57.7%【官方官宣】	未参与该榜单	https://benchlm.ai/benchmarks/swePro 月之暗面官方官宣文档
	SWE-Bench Verified得分	80.2%【第三方实测】	80.6%【第三方实测】	64.1%【第三方实测】	78.8%【第三方实测】	【无公开数据】	82.1%【第三方实测】	88.7%【第三方实测】	marc0.dev 全球代码权威榜单
高阶推理评测	GPQA Diamond博士级推理	78.0%【官方官宣】	70.0%【第三方实测】	58.0%【第三方实测】	60.0%【第三方实测】	【无公开数据】	72.0%【第三方实测】	89.2%【第三方实测】	https://arxiv.org/abs/2303.16744 专业AI评测平台
	Humanity’s Last Exam综合难度考试	54.0%【官方官宣】	41.0%【第三方实测】	【无公开数据】	47.5%【第三方实测】	【无公开数据】	52.1%【官方官宣】	未公布完整分数	https://lastexam.ai/
智能体Agent能力	并行支持子Agent数量	300个【官方官宣】	200个【官方官宣】	【无公开上限数值】	150个【第三方实测】	无成熟多Agent体系	220个	280个	Kimi官方智能体功能介绍
	长时间任务运行稳定性	长时间运行无崩溃，支持千行代码修改	长期运行稳定性偏弱	集群调度能力中等	长周期任务易中断	运行易卡顿，存在上下文失忆	运行稳定性优秀	运行稳定性顶尖	行业专业实测汇总
信息学竞赛专项	OI Bench竞赛解题通过率	上游优异水平	中等水平	基础题型稳定，高难度题目乏力	竞赛算法存在明显短板	不适配竞赛刷题场景	顶尖水准	顶尖水准	https://liveoibench.github.io/
	Codeforces模拟测评表现	解题深度强，测评成绩亮眼	常规基础题型达标	基础得分稳定	高分段突破难度大	无法适配竞赛难度	满分梯队	满分梯队	算法竞赛第三方测评平台
综合榜单能力	LMSYS CodeArena编程Elo分数	1529【第三方实测】	1456【第三方实测】	1534【第三方实测】	1452【第三方实测】	【无公开数据】	【无公开数据】	【无公开数据】	https://leaderboard.lmsys.org/
	CodeArena对应排名（分数降序）	全球第三名	全球第十四名	全球第二名	全球第四名	无上榜数据	无上榜数据	无上榜数据	LMSYS官方盲测榜单
	C-EVAL中文综合得分	【无公开精准数据】	86.7%【官方官宣】	【无公开精准数据】	【无公开精准数据】	【无公开数据】	【无公开对标数据】	【无公开对标数据】	DeepSeek官方技术报告

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

G-Star 精选开源项目推荐｜第十九期

BuildAdmin 是一个基于 Vue 3、ThinkPHP 6、TypeScript、Vite、Pinia 和 Element Plus 的后台管理系统，面向中后台业务系统快速开发场景。项目提供可视化 CRUD 代码生成、权限管理、Web 终端、数据回收站、字段级修改保护等能力，帮助开发者减少重复后台开发工作。对于需要快速搭建管理后台、业务配置台或二开系统的团队来说，它提供了一套相对完整的工程