本文聚焦各模型的最新进展,核心特点和劣势,以及一些博主个人的看法,初衷为帮助我个人整理思路。
本文原始素材由博主通过多种渠道自行收集并整理,博主保证文章中出现的模型博主都有或长或短的实际使用经历。
博主没收下面这些公司的钱,客观信息摘自公开渠道,个人评价会带有主观色彩,所以请读者自行鉴别。

写在前面

在2023年11月3日,我的同事在微信群内转发了一篇DeepSeek Coder的文章。作为同行,我对DeepSeek背后的幻方一直用机器学习炒股也早有耳闻。

早前,我的前前前东家历经艰难险阻也购入了1张A100。在内部有力推动下,这张A100后来给公司带来了惊人的超额收益。在这种背景下,这个11月2日才发布的模型,居然注册就可以用!相比起国内别家还要邀请码,DeepSeek至少尝试成本很低,放出的态度也很友善开放。于是我想看看同行做的这个工具是否可以和ChatGPT相媲美,所以就有了下面这段对话。

当时使用下来的体验,是有些问题DeepSeek给我的回复信息量不够。话又说话来,它回答一些有标准答案的技术问题是没有问题的,免费,而且服务器在国内,不受网络波动影响,所以实际上作为备选是非常好的。ChatGPT的综合体验要好于它,所以当时的情况是我仍然是在ChatGPT和Claude间来回切换着用,偶尔切到DeepSeek上问一些问题。

在Claude Code出来前的很长一段时间,我都是通过平台问答的方式来使用这些模型,从现在来看效率不高,但由于过程可控,所以体验还是非常好的。从TabNine在vscode上第一次惊艳到我开始,到后面的初代Copilot,这些工具最主要还是在提供自动补全功能。直到Cursor,再到Cline,慢慢地我觉得,诶,好像这个对话工具可以通过一些“手脚”,做一些工作了,和你对话的不再是屏幕对面的一台台服务器。但当时我试用Cursor的感觉是这个东西仍然有些智障,所以还是在使用vscode。直到Claude Code出来后,我一下子就被它的交互方式吸引,然后尝试着让他帮我重构了一个中型项目,又写了2个小型项目,这个过程不算多么愉快,但确实这3个项目都跑起来了。到这里,我已经意识到AI写代码这事,在现实中不久后就会引发这个行业巨大的变化。

再到前一阵子,我的脑子里在构思一个软件,这个软件能根据我的日历表每年特定时间提醒我做一些事情,比如洗牙,健身卡续费等等,这样我就不用记着这些琐事。似乎手机也感应到了我的想法,OpenClaw适时地出现,看到它的增长曲线,真是让我直拍大腿。调研之后觉得,这样一个未来会长期使用的工具,我应该为它找一个有性价比的“大脑”,最好做一个长期订阅,所以我也需要考虑这个模型未来的走向。所以就有了下面这篇博客来总结。

国际模型

1. OpenAI — GPT 系列

最新版本:GPT-5.4(2026年3月),开源状态:闭源

核心定位:最接近"数字白领"的通用旗舰。GPT-5.4 最大的突破在于原生计算机操控能力。模型不再只输出文本,而是能识别屏幕内容并自主执行键盘和鼠标操作,是业界首个具备此能力的通用模型。在多个主流基准中保持第一梯队水平,工具调用的可靠性在所有模型中最为稳健,是复杂工作流的首选。

个人评价:贵,想使用的话有一些方式可以绕过,但是卡网络环境,封号风险也高。对话很流畅,作为面向大众的商用大模型的先驱,能力没有明显短板,表现中规中矩。这家公司的模型有一个特点是非常“守规矩”,所以目前看未来ChatGPT未来可能考虑主要赚商政军的钱,提供一个可靠的全能的“第一模型”的印象。面向个人的话,就两个字“够用”。另外提一嘴,经过打磨Codex的过程,5.4的编程能力据说也不错。


2. Google DeepMind — Gemini 系列

最新版本:Gemini 3.1 Pro(2026年2月),提供 Pro / Flash / Flash-Lite 三档,开源状态:闭源

核心定位:多模态感知与抽象推理的当前最强选手。Gemini 3.1 Pro 是真正的原生五模态感知架构,支持文本、音频、图像、视频、PDF 五种输入,支持超长上下文。其引入的动态思考链机制能自主判断问题复杂度——简单查询极速响应,复杂推理启动完整内部逻辑链后再输出,显著降低事实性错误率。在抽象推理和科学知识基准上全球领先,是科研、跨学科分析类工作的首选。

个人评价:首次响应延迟偏高,也卡网络环境,有时候会限流。有意思的事情是,我看有的UP主做了几个模型的前端编程对比,发现Gemini的前端做非常好且明显好于别的几家模型(包括Claude都不是对手)。所以Google对Gemini的定位,我猜更多的是辅助Google的生态。Google拥有强大的数据获取能力,再加上它本身天天与前端打交道的经验,所以Genimi在前端开发和非文本的多模态这两个方面都很有希望做到最强,但很明显Gemini发展到最后只是Google的生态中的一环,现在在打造的是生态训练模型,模型反哺生态的路子。


3. Anthropic — Claude 系列

最新版本:Claude Opus 4.6、Claude Sonnet 4.6(2026年2月),开源状态:闭源

核心定位:编程与专业知识工作的最强模型,企业级 Agent 部署的最可靠选择。Opus 4.6 在 SWE-bench Verified 上以 80.9% 的成绩成为首个突破 80% 的模型,在长程 Agent 任务的稳定性和可审计性上领先业界。Sonnet 4.6 在旗舰模型中性价比突出,是兼顾质量与成本的均衡之选。

个人评价:相当贵,但是贵有贵的道理,各家说自己模型的Coding能力有多强的时候,都要和Claude做对比,伟大无需多言。但是提到对账号的风控力度,如果说别家对账户的风控算是睁一只眼闭一只眼,那Anthropic可以说是极力想要“杀死”所有疑似中国的账户。不过这帮人从OpenAI独立出来,确实有理想,也有两把刷子,在编程这块应该未来很长一段时间都仍然是最具实用价值的编程模型。就是有时候幻觉(主动性)有点强,你得对它的输出看紧了,建议有一定鉴别能力的专业人士使用。


4. xAI — Grok 系列

最新版本:Grok 4.1(2025年11月),另有 Grok 4.20 处于 Beta 测试,开源状态:闭源

核心定位:实时信息接入与数学推理的差异化选手。Grok 4.1 是当前唯一原生直连 X(Twitter)平台实时数据的主流 AI 模型,适合需要追踪最新舆情、金融信息或突发新闻的场景。Heavy 版本的数学和竞赛推理能力进入全球第一梯队,对内容尺度的政策相对宽松,在部分创意写作场景有独特优势。模型支持实时自我校验,与外部来源交叉验证后输出,幻觉率在主流模型中处于较低水平。

个人评价:模型延续老马一贯的语不惊人死不休的风格,实际表现对比竞争对手有点拉胯了,有点先把牛吹出去再实现的意思。当然鉴于老马确实有这个能力和魅力,放出话来说今年年中要追上竞争对手,拭目以待吧。我的建议是出来了一定要实际试试看。另外我看X平台上有很多人在评论下@grok,但是听说反应延迟比较大,充值后会有所缓解,反正我没试过。如果是做为生产力,Grok目前是不够的。


5. Meta — Llama 系列

最新版本:Llama 4(2025年4月),提供 Scout / Maverick / Behemoth 三款,另有闭源旗舰 Avocado 在研,开源状态:开放权重(有商业许可限制)

核心定位:开源生态的奠基者,覆盖规模最大的消费级 AI 入口。Llama 4 系列原生嵌入 WhatsApp、Instagram、Messenger、Facebook 等平台,触达超 40 个国家的普通用户,是当前规模最大的 AI 普及渠道。

个人评价:Llama 4 刷榜有一套的。逻辑推理能力落后于头部模型;在开源生态中也面临来自 DeepSeek 和 Qwen 系列的强烈冲击。从开发Avocado的动向来看,短时间不会考虑了,后面等他们的Avocado发布了再看看。


6. Mistral AI — Magistral 系列

最新版本:Mistral Large 3, Devstral 2(2025年12月),开源状态:部分开源(Small 系列开放权重,Large 系列需商业授权)

核心定位:欧洲合规与企业私有化部署的最优选择。Mistral 的核心差异化在于开放权重允许完全本地或私有云部署,企业对数据的存储位置和处理方式拥有完全控制权——这是 OpenAI、Anthropic 等闭源 API 无法复制的根本优势。对法语、德语、西班牙语等欧洲语言有原生流利支持,天然契合欧盟 AI Act 的合规要求。相较于追求基准分数,Mistral 更注重深入企业真实场景、解决实际问题。

个人评价:综合智力水平与顶级闭源模型差距明显,给欧洲人用的,咱们就别掺和了。不过有一说一界面做的有点小清新,符合我对欧洲理想主义的刻板印象。


国内模型

7. 深度求索 — DeepSeek 系列

最新版本:DeepSeek-V3.2(2025年12月),开源状态:开源(Apache 2.0)

核心定位:开源生态最具性价比的高性能选手。延续DeepSeek在数学、编程和 Agentic 任务上一贯的高水平。Speciale 是 V3.2 的高算力竞赛变体,专为最大化推理能力优化,在 2025 年 IMO 中斩获金牌级别成绩(35/42 分),AIME 通过率达 96%,是目前开源数学能力天花板。值得注意的是,V3.2-Speciale 不支持工具调用,牺牲了通用性换取极致推理性能。

个人评价:知识广度和顶尖复杂任务上与国外仍有一定差距,这可能也是训练数据不够广导致的。总体给出一个国内ChatGPT的评价,现在能用,未来希望他们继续搞大新闻出来。之前尝试过使用DeepSeek+Claude Code进行编程,发现效果一般,但不妨碍我对DeepSeek的尊敬,尊敬就完事了(业内谁不尊敬幻方的管理规模xs)。


8. 阿里通义 — Qwen 系列

最新版本:Qwen3.5-Plus(2026年2月),开源状态:Plus 及以下开源(Apache 2.0),Max 系列闭源

核心定位:当前开源生态的全球第一,多语言与视觉-语言理解能力最强的开源模型。Qwen3.5 的多模态能力定位是文本与视觉的深度融合理解:从预训练阶段即采用文本与视觉混合数据,模型能够原生关联图像/视频与文本语义,在复杂视觉推理、长达 2 小时的视频理解和 GUI 交互任务中表现出色(注:Qwen3.5 本体侧重理解,图像生成依赖 Qwen-VL 生成版本,非统一模型)。通过创新的混合架构,以更小的激活参数实现了更强的推理效率,API 价格极具竞争力。目前 Hugging Face 下载量和衍生开源项目数量均已全面超越 Llama,稳居开源榜首。

个人评价:核心技术负责人林俊旸离职是最近关于Qwen最大的新闻了,随后有其他核心成员跟进离开;你问我强不强,我竖起个大拇指;但你问我用不用,我笑而不语hh。只从他们官网那一套又一套的这个平台,那个计划来看,内部管理相当山头化,这也符合外界对阿里一贯的认知。现在阿里看Qwen不赚钱,最近又摆出“all in token”的态势,眼界是够长远的,国内的电价也支持这个目标能走很远。但是好不好用,取决于阿里本身的结构和基因,总体持悲观态度。


9. 月之暗面(Moonshot) — Kimi 系列

最新版本:Kimi K2.5(2026年1月),开源状态:开源(有商业限制)

核心定位:视觉、编程与创新 Agent 集群能力的融合探索者。K2.5 的核心创新是Agent Swarm——支持动态调度最多 100 个子智能体并行协作,能将复杂任务的执行效率提升十倍以上,在多步骤规划类任务上有突破性表现。模型支持原生多模态理解,能将视觉信息(图像/视频)直接转化为代码,是"视觉编程"场景的有力选手。SWE-bench 约达到 70%,与开源和部分闭源旗舰持平。

个人评价:我观察Kimi在多个榜单也都名列前茅。Kimi是目前国内最贵的模型,而且找不到很便宜的渠道(可能硅基流动算一个?)。公司创始人杨总表示短期不急于上市,说明Kimi有信心和实力把这个模型往长期发展。最近3月16日发布的《Attention Residuals》(注意力残差)论文还引起了关于深度学习2.0的讨论,隐藏实力也是很恐怖。在国内来看,他家的模型确实是最优先考虑的一批,可以长期使用。


10. 稀宇科技 — MiniMax 系列

最新版本:MiniMax M2.7(2026年3月18日),开源状态:部分公开

核心定位:内容生成侧最全面的多模态平台,同时兼具企业级性价比。MiniMax的差异化在于:语言、视频、语音、音乐四大模态生成能力均属行业领先,尤其是语音合成和音乐生成在国内模型中处于 SOTA 地位,在 Office 核心生产力场景(文档处理、演示生成、多媒体内容创作)中形成独特优势。工程极致优化带来的推理成本降低了一个数量级,在全球最大 API 聚合平台 OpenRouter 上取得调用量第一,反映了开发者对其性价比的高度认可。

个人评价:我买了他家的Coding Plan,主要给我的牛牛(我的OpenClaw非让我给它起一个名字)用。上下文一长好像就有点吃力了,但是短对话任务基本都能胜任。从M2.5到M2.7的动向来看,SWE-Bench上的表现惊人,也难怪之前在pinchbench排名那么高。从未来看这家公司可能考虑会重点发展Agent这块的长板能力做差异化,再加上价格便宜,有点拼多多的那个意思了。拼多多后来发展的怎么样大家有目共睹,所以可以考虑长期使用。


11. 智谱 AI — GLM 系列

最新版本:GLM-5(2026年2月),开源状态:部分开源(MIT 协议)

核心定位:编程与系统工程能力突出,国产芯片适配深度最强。GLM-5 构建了全新的"Slime"框架,通过将训练引擎与推理引擎解耦至不同 GPU 设备,并引入异步 Agent RL 算法,显著提升了模型在复杂长程交互任务中的自主决策质量。其深度适配国产 GPU 芯片并支持 GPU/CPU 混合部署,是对算力供应链安全有要求的国内企业的关键优势。MIT 开源协议对商业应用极为友好,API 定价约为 Claude 的十分之一。

个人评价:只用过他们家的聊天功能,听说之前超发Coding Plan,出现过算力不足导致服务不稳定的情况,导致我对他们的印象一般。看了几个实际的编程对比测试,GLM-5的表现有点迷,有的时候表现特别好,有的时候又特别差不知道为什么,其他模型在编程上都没有这么大的表现差别,吓的我试都没敢试就跑了(毕竟预算有限,不然谁不希望莺莺燕燕)。从它的动向也能看出来,作为除过稀宇科技之外的另一家上市公司,压力很大,在百忙中还专门做国内这些GPU的适配,可见其野心。当然智谱做这些可能也是因为背靠清华,说不清到底是理想,还是商业化或者别的什么地方的压力。但是我作为个人用户看来,GLM中规中矩,Kimi和MiniMax同样可用而且表现稳定。所以我觉得在国内GPU生态还没建立起来之前,GLM距离证明自己还有很长一段路。


12. 字节跳动 — Doubao / Seed 系列

最新版本:Doubao-Seed-2.0(2026年2月),提供 Pro / Lite / Mini / Code 四款,开源状态:闭源

核心定位:视觉感知理解顶尖 + 多媒体内容生成完整闭环,字节生态"产品矩阵"的核心引擎。需要注意的是,Seed-2.0 本体侧重视觉理解与文档解析;视频生成(Seedance)和图像生成(Seedream)是字节独立训练的生成模型,三者通过产品层整合,形成"理解 + 生成"的完整链路——这是字节区别于其他模型提供商的独特优势,但也意味着多模态能力分散在多个模型中,并非单模型原生能力。配合豆包 App、TRAE 编程工具、Seedance 视频生成、Seedream 图像创作,形成了从感知理解到媒体生成的产品矩阵。

个人评价:我经常拿它来生成图片,在搞媒体这块毫无疑问是国内最强(毕竟背靠抖音,有传承的)。影视飓风Tim多次提到Seedance2.0对他带来的影响和思考,足见其在媒体领域的影响力。视频能力我看我的权限只能生成过15秒的小短片,有没有人可以告诉我像Tim他们使用的Seedance是在哪里搞到的,我也想搞一个啊。。。但回顾和Seed模型的对话,感觉和这个模型对话,时常让我有种对牛弹琴的感觉。所以我经常完事就撤,避免和它深入交流,否则我感觉自己就会疯掉。


13. 阶跃星辰(StepFun)— Step系列

最新版本:Step 3.5 Flash(2026年2月),开源状态:开源(Apache 2.0)

核心定位:它是目前开源阵营里最值得关注的新选手,定位"为 Agent 而生"的高效推理引擎。在单请求代码类任务上,最高推理速度可达每秒 350 个 token,在同级别开源模型中属于顶尖水平,对实时 Agent 交互场景意义重大。而且它不仅开源了成品模型,还开源了预训练权重、中训练权重以及配套的训练框架,这在当前大模型生态中极为少见,为开发者提供了远超一般"开放权重"的二次开发空间。同时它也是目前国产芯片生态覆盖最广泛的开源模型之一,对供应链安全有诉求的企业极具吸引力。模型调用量在 OpenClaw 平台上迅速攀升至全球第一, 社区热度超过 MiniMax M2.5 和 Kimi K2.5,说明开发者对其 Agent 能力和性价比的认可度很高。

个人评价:最近官网看到它的Step 3.5 Flash在OpenRouter上限免,我看最近的调用量甚至已经有超过MiniMax的趋势。可能也是最近OpenClaw火起来了,这个流量机会恰好Step能抓的住,也确实抓住了,未来可期。社区评价Step 3.5 Flash有Deepseek V3.2的实力,我暂时不能验证,但是它又快又免费啊,这样对比下来,短期内非常有吸引力。

写在最后

所以如果让我推荐,基于长期考虑,我会说:

  • 如果你能解决网络和订阅问题,也能接受一定的账号风险,那么ChatGPT和Claude依然是我心中的第一梯队选择。
  • 如果你不能解决网络问题,那么在国内平台范围内,我更推荐Kimi和MiniMax。一方面能力都在国内第一梯队,另一方面都支持长期订阅,更适合作为稳定主力。

现在大模型的发展真是日新月异,这篇文章几天前刚写完,MiniMax 和 Kimi 就又有了新的动向,所以这里也及时更新上了。后续博主会继续更新个人调研和思考,欢迎关注。

另外,如果你有打算订阅MiniMax的Coding Plan,可以顺手用我的9折邀请链接https://platform.minimaxi.com/subscribe/token-plan?code=HyoqdM0QmB&source=link

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐