Transformer 模型正从单纯堆参数转向架构与训练方式的革新,进入 LLMs+ 时代。关键突破包括:Mixture-of-Experts (MoE) 通过稀疏专家激活提升效率与模块化;扩散模型有望替代自回归生成,实现并行推理;视觉编码器处理长文本降低 token 消耗;百万级上下文窗口面临 context rot 问题,递归 LLMs 提出子任务拆解方案。未来,工程化先行的团队将主导市场定价。


过去三年大家盯着 Transformer 不停堆参数,现在业界开始换赛道。MIT Technology Review 四月份那篇 LLMs+ 的报道把信号讲得很清楚,下一代模型不再是 GPT-5 的单纯放大版,而是一整套新架构和新训练方式在同时发生。

为什么这一代叫 LLMs+

Will Douglas Heaven 给出的定义很务实。LLMs+ 指的是那些仍然以 Transformer 为底座,但在关键环节动了大手术的模型。有的在激活方式上改成稀疏专家,有的干脆把生成过程从自回归换成扩散,有的把输入通道从文字换成像素。

核心共识是 scaling law 正在退火。单纯加 GPU 加数据的边际收益撑不住下一轮融资故事,厂商必须在架构层找新的效率曲线。

Mixture-of-Experts 让大模型按需激活

MoE 已经从实验室概念变成主流路线。DeepSeek V3、Mistral、Qwen3、GPT-4o 背后都在用这套思路。一个 6710 亿参数的模型,推理时实际只激活 370 亿左右,算力账一下就算得过来。

关键变化在于 MoE 不再只是省钱的工具。研究者发现不同专家会自然分化出语言、代码、数学等专长,这种内在模块化给了后续微调和能力追加一个更干净的接口。你想给模型塞一个新领域,不用重训全部权重,只训练相关专家就行。

扩散有机会干掉自回归

LLaDA 和 Mercury 两个项目把扩散模型从图像生成领域搬到了文本生成。传统 LLM 是一个词一个词往外吐,扩散模型则是把整段噪声一次性 denoise 成最终输出。

好处是生成可以并行,延迟有机会压到十分之一。坏处是质量目前还追不上顶级自回归模型,而且训练所需的数据和算力都更重。但方向已经打开,一旦某个实验室把 Chinchilla 级别的扩散 LLM 训出来,推理经济性会重写整个 API 定价逻辑。

DeepSeek 走了一条野路子

DeepSeek 最近发的 OCR 论文里藏着一个反直觉的做法,把长文本先渲染成图像,再让视觉编码器去读。听起来像绕远路,实测 token 消耗能降到原来的十分之一。

逻辑其实简单。一张 1024 像素的图能装下一整页文档,视觉 token 对应的信息密度远高于文字 token。如果这条路被验证可行,未来的 agent 系统处理长文档、长网页、长对话时都会多一个极具性价比的选项。国内团队能先跑出来这种非常规路径,本身也说明跟欧美顶级实验室的工程差距在缩小。

百万 token 上下文,长到一定程度就跑偏

Gemini 2.5 Pro、Claude Sonnet、GPT-4.1 都把上下文窗口推到了百万级。理论上你可以把一整个代码库、一整本书塞进去让它一次性处理。

现实没那么美。只要上下文超过几十万 token,模型开始出现所谓的 context rot。前面的内容会被稀释,注意力机制的 softmax 权重被拉平,关键信息丢失率快速上升。Anthropic 和 Google 的内部评测都承认这个问题。

对使用者来说实用的结论是,百万 token 是规格参数不是使用建议。真正要跑长任务还是得拆 chunk、做 RAG、做 summary cascade,跟两年前的做法没有本质差别。

Recursive LLMs 是 MIT CSAIL 的新药方

针对长任务稳定性,MIT CSAIL 去年底推出了 Recursive LLMs 这个思路。核心做法是让模型主动把任务拆解成子任务,每个子任务用一个独立的上下文窗口去解,再把结果汇总。

跟普通的 agent loop 不一样的地方在于递归结构是模型原生支持的。训练阶段就让它学会在内部发起子调用,不是靠 prompt 工程去模拟。实测在 20 步以上的推理链上,稳定性明显好过单纯扩大上下文的方案。

一句话抓重点

LLMs+ 不是某一家的产品线,是一组方向的合集。稀疏化、扩散化、视觉压缩、长上下文、递归推理这五条路线谁先跑通工程化,谁就能在 2026 下半年拿到下一轮定价权。接下来半年值得盯的是 DeepSeek 下一个版本、Google Gemini 3、以及各家在 MoE 专家调度上的开源工作。

说真的,这两年看着身边一个个搞Java、C++、前端、数据、架构的开始卷大模型,挺唏嘘的。大家最开始都是写接口、搞Spring Boot、连数据库、配Redis,稳稳当当过日子。

结果GPT、DeepSeek火了之后,整条线上的人都开始有点慌了,大家都在想:“我是不是要学大模型,不然这饭碗还能保多久?”

我先给出最直接的答案:一定要把现有的技术和大模型结合起来,而不是抛弃你们现有技术!掌握AI能力的Java工程师比纯Java岗要吃香的多。

即使现在裁员、降薪、团队解散的比比皆是……但后续的趋势一定是AI应用落地!大模型方向才是实现职业升级、提升薪资待遇的绝佳机遇!

这绝非空谈。数据说话

2025年的最后一个月,脉脉高聘发布了《2025年度人才迁徙报告》,披露了2025年前10个月的招聘市场现状。

AI领域的人才需求呈现出极为迫切的“井喷”态势

2025年前10个月,新发AI岗位量同比增长543%,9月单月同比增幅超11倍。同时,在薪资方面,AI领域也显著领先。其中,月薪排名前20的高薪岗位平均月薪均超过6万元,而这些席位大部分被AI研发岗占据。

与此相对应,市场为AI人才支付了显著的溢价:算法工程师中,专攻AIGC方向的岗位平均薪资较普通算法工程师高出近18%;产品经理岗位中,AI方向的产品经理薪资也领先约20%。

当你意识到“技术+AI”是个人突围的最佳路径时,整个就业市场的数据也印证了同一个事实:AI大模型正成为高薪机会的最大源头。

最后

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包【允许白嫖】:

  • ✅从入门到精通的全套视频教程
  • ✅AI大模型学习路线图(0基础到项目实战仅需90天)
  • ✅大模型书籍与技术文档PDF
  • ✅各大厂大模型面试题目详解
  • ✅640套AI大模型报告合集
  • ✅大模型入门实战训练

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

①从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图(0基础到项目实战仅需90天)

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

④各大厂大模型面试题目详解

⑤640套AI大模型报告合集

⑥大模型入门实战训练

👉获取方式:
有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐