标注规范:【官方官宣】=品牌官方发布数据;【第三方权威榜单】=公开可查询专业测评平台;【无公开数据】=厂商未对外公示,不虚构填补

对比大类 细分项目 Kimi K2.6 DeepSeek V4 Pro GLM-5.1 通义千问 Qwen3.6-Plus 豆包 GPT-5.4 GPT-5.5 数据溯源来源
基础信息板块 正式发布时间 2026.04.20【官方官宣】 2026.04.24【官方官宣】 2026.03.27【官方官宣】 2026.04.03【官方官宣】 持续迭代更新 2025年末 2026.03 各品牌官方发布公告
研发主体 月之暗面 深度求索 智谱AI 阿里达摩院 字节跳动 OpenAI OpenAI 企业官方资质公示页面
开源授权状态 完整开源,修改MIT协议,支持商用 完整开源,MIT商用许可 部分开源,商用受限 闭源,仅开放API调用 主模型闭源,仅Seed-OSS基础模型开源 闭源 闭源 HuggingFace官方仓库+品牌官网
长文本核心参数 官方标称上下文Token 262144(256K) 262144(256K) 204800(200K) 131072(128K) 32768(32K) 204800 1048576 月之暗面官方文档 https://platform.moonshot.cn/docs
可承载文字量级 约200万字 约200万字 约150万字 约90万字 约25万字 约150万字 约800万字 各模型官方功能介绍页面
长文本信息召回率 92%【官方官宣】 85%【第三方实测】 【无公开数据】 【无公开数据】 【无公开数据】 【无公开数据】 【无公开数据】 Kimi K2.6版本官方发布博客
商用付费体系 月度基础会员价格 49元/月【官方官宣】 99元/月【官方官宣】 89元/月【官方官宣】 无固定月费,按量计费 无正规加速VIP通道 海外订阅计费 海外订阅计费 各平台官方会员购买页面
月度会员Agent调用额度 60次 不限次数 100次 按量计费 基础功能免费 按量计费 按量计费 官方套餐详细说明
API输入单价/百万token $0.60【官方官宣】 $0.145【官方官宣】 $1.40【官方官宣】 $0.30【官方官宣】 未对外完整公开 海外定价 海外定价 品牌官方API价目表
API输出单价/百万token $2.50【官方官宣】 $1.74【官方官宣】 $4.40【官方官宣】 $1.20【官方官宣】 未对外完整公开 海外定价 海外定价 品牌官方API价目表
代码专项评测
SWE系列榜单
SWE-Bench Pro得分 58.6%【官方官宣】 52.3%【第三方实测】 48.0%【第三方实测】 50.0%【第三方实测】 【无公开数据】 57.7%【官方官宣】 未参与该榜单 https://benchlm.ai/benchmarks/swePro
月之暗面官方官宣文档
SWE-Bench Verified得分 80.2%【第三方实测】 80.6%【第三方实测】 64.1%【第三方实测】 78.8%【第三方实测】 【无公开数据】 82.1%【第三方实测】 88.7%【第三方实测】 marc0.dev 全球代码权威榜单
高阶推理评测 GPQA Diamond博士级推理 78.0%【官方官宣】 70.0%【第三方实测】 58.0%【第三方实测】 60.0%【第三方实测】 【无公开数据】 72.0%【第三方实测】 89.2%【第三方实测】 https://arxiv.org/abs/2303.16744
专业AI评测平台
Humanity’s Last Exam综合难度考试 54.0%【官方官宣】 41.0%【第三方实测】 【无公开数据】 47.5%【第三方实测】 【无公开数据】 52.1%【官方官宣】 未公布完整分数 https://lastexam.ai/
智能体Agent能力 并行支持子Agent数量 300个【官方官宣】 200个【官方官宣】 【无公开上限数值】 150个【第三方实测】 无成熟多Agent体系 220个 280个 Kimi官方智能体功能介绍
长时间任务运行稳定性 长时间运行无崩溃,支持千行代码修改 长期运行稳定性偏弱 集群调度能力中等 长周期任务易中断 运行易卡顿,存在上下文失忆 运行稳定性优秀 运行稳定性顶尖 行业专业实测汇总
信息学竞赛专项 OI Bench竞赛解题通过率 上游优异水平 中等水平 基础题型稳定,高难度题目乏力 竞赛算法存在明显短板 不适配竞赛刷题场景 顶尖水准 顶尖水准 https://liveoibench.github.io/
Codeforces模拟测评表现 解题深度强,测评成绩亮眼 常规基础题型达标 基础得分稳定 高分段突破难度大 无法适配竞赛难度 满分梯队 满分梯队 算法竞赛第三方测评平台
综合榜单能力 LMSYS CodeArena编程Elo分数 1529【第三方实测】 1456【第三方实测】 1534【第三方实测】 1452【第三方实测】 【无公开数据】 【无公开数据】 【无公开数据】 https://leaderboard.lmsys.org/
CodeArena对应排名(分数降序) 全球第三名 全球第十四名 全球第二名 全球第四名 无上榜数据 无上榜数据 无上榜数据 LMSYS官方盲测榜单
C-EVAL中文综合得分 【无公开精准数据】 86.7%【官方官宣】 【无公开精准数据】 【无公开精准数据】 【无公开数据】 【无公开对标数据】 【无公开对标数据】 DeepSeek官方技术报告
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐