NUS&复旦&清华:首个系统性大模型Latent Space综述
从人类可读的离散符号空间,转向机器原生的连续潜在空间,大模型设计正迎来颠覆性重构。
近日,新加坡国立大学、复旦大学、清华大学、浙江大学等国内外顶级学术机构,联合发布大模型潜在空间领域首个系统性全景综述,尝试通过 “基础—演进—机制—能力—展望”五大递进角度,完整拆解潜空间范式(LLM真正的大脑)的底层逻辑、技术路径与未来前景,填补该领域碎片化研究的空白。



1. 基础:大模型的「潜在空间」是什么?
大模型潜在空间,是模型内部通过学习形成的连续非离散表征空间。它编码文字、多模态信息背后的隐含语义、语法、上下文关联等未被显式 token 表达的信息,是机器原生的计算空间。 当前大模型主流依赖显式空间(语言符号空间)运算,存在语言冗余、离散瓶颈、序列低效、语义损失等结构性缺陷。
1.1 潜空间 vs 显式空间:核心差异对比

四大表征属性:
可读性:显式空间是人类可读的离散符号;潜空间是模型原生高维向量,人类不可直接解读但表征更丰富。
存在形式:显式空间离散固定、冗余信息多;潜空间连续灵活,仅保留核心语义。
计算效率:显式空间逐词生成、反复转码,算力浪费严重;潜空间直接向量运算,无额外转换开销。
语义保留:显式空间转码易丢失细粒度语义;潜空间可高保真保留完整信息。
四大功能能力:
可操作性:显式空间非连续不可微分;潜空间连续可微分,支持精准语义操控。
表达能力:显式空间仅限语言可描述内容;潜空间突破词汇语法限制,可处理高维非语言信息。
可扩展性:显式空间受序列长度严格限制;潜空间易适配长推理、多交互场景。
泛化能力:显式空间受语言形式束缚;潜空间捕捉抽象规律,跨领域泛化性大幅提升。
2. 演化:大模型的「潜在空间」是如何不断进化的?
大模型潜空间的研究发展,随技术迭代分为四个递进阶段,从理论想法走向全场景落地:原型阶段、形成阶段、拓展阶段和爆发阶段。

2.1 原型阶段
首次验证推理可脱离自然语言,用连续向量完成;初代潜在推理框架诞生,仅停留在概念验证阶段。
2.2 形成阶段
搭建理论根基,用数学证明潜空间的计算优势;初步试水多模态,仍以文本推理为主。
2.3 拓展阶段
从纯文本全面拓展至视觉、多智能体、机器人具身等领域,技术开始走向成熟。
2.4 爆发阶段
潜空间成为大模型的独立计算空间和范式,专属架构、优化策略批量涌现,文本/视觉/具身/多智能体领域的应用开始爆发。
3. 机制:大模型的「潜在空间」是如何作用的?
潜空间通过架构、表征、计算、优化四大协同维度,构建起全流程运作逻辑,解决「嵌入模型、信息承载、运算处理、效果调优」四大核心问题。

3.1 架构:潜空间的模型集成方式
主干内置:直接改造模型主干,让模型原生支持潜计算; 插件组件:不改动模型主干,加装投影、对齐、存储等插件扩展潜功能; 辅助模型:外部独立模型提供监督信号,辅助主模型生成潜空间。

3.2 表征:潜空间的信息承载载体
内部表征:复用模型隐状态、KV 缓存等内部激活,无额外参数; 外部表征:冻结外部预训练模型,生成潜信息注入主模型; 可学习表征:可训练模块生成潜信息,与主模型端到端优化; 混合表征:结合可学习与外部注入,兼顾灵活性与稳定性。


3.3 计算:潜空间的信息处理模式
压缩计算:压缩推理轨迹、缓存,降低算力消耗; 扩展计算:通过循环、并行拓展算力,提升表达能力; 自适应计算:按输入难度动态分配算力,平衡效率与性能; 交错计算:显式 token 与潜信息、多模态交错运算,融合双方优势。


3.4 优化:全生命周期调优
预训练:让模型从训练初期就具备潜计算能力; 后训练:在预训练模型基础上,精调潜空间适配下游任务; 推理:实时修正潜状态,直接优化输出效果。

4. 能力:大模型的「潜在空间」实现什么能力?

潜空间彻底突破离散token的表达与计算瓶颈,解锁推理、规划、建模、感知、记忆、协作、具身七大核心智能能力:
4.1 推理能力
实现隐式推理、紧凑轨迹、连续迭代修正、分支路径探索、跨模态泛化更强。
4.2 规划能力
支持可控路径探索、高效解空间搜索、自适应分配算力、优化决策轨迹。
4.3 建模能力
可丰富表达复杂计算、自我检视内部状态、实现模型行为的鲁棒控制、提升拓展能力。
4.4 感知能力
保留视觉精细结构信息、实现启发式想象、忠实定位。
4.5 记忆能力
打造工作记忆存储、持久化记忆、多模态记忆召回。
4.6 协作能力
实现智能体间无损语义传输、共享智能体间认识、支持异构模型跨模态互通。
4.7 具身能力:
无监督动作落地、内隐思考规划、场景预测、空间认知、赋能机器人跨硬件泛化迁移。
5. 展望
5.1 现存挑战
难评估:中间计算过程不可见,无法验证推理合理性;难控制:无法精准操控内部连续表征;难解释:高维向量无直观语义,模型行为不可追溯。
5.2 未来发展方向
搭建统一理论:明确潜空间计算原理、与显式空间的协作规则,建立标准评估体系;深耕多模态:打造文本、视觉、动作统一的原生潜计算空间;落地下游任务:用潜空间支撑推理、机器人控制等实际场景落地;实现可控治理:让潜空间可观测、可管控,解决可信性与安全性问题。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
所有评论(0)