NUS&复旦&清华：首个系统性大模型Latent Space综述

Python_金钱豹

378人浏览 · 2026-04-26 10:45:00

Python_金钱豹 · 2026-04-26 10:45:00 发布

从人类可读的离散符号空间，转向机器原生的连续潜在空间，大模型设计正迎来颠覆性重构。

近日，新加坡国立大学、复旦大学、清华大学、浙江大学等国内外顶级学术机构，联合发布大模型潜在空间领域首个系统性全景综述，尝试通过 “基础—演进—机制—能力—展望”五大递进角度，完整拆解潜空间范式（LLM真正的大脑）的底层逻辑、技术路径与未来前景，填补该领域碎片化研究的空白。

1. 基础：大模型的「潜在空间」是什么？

大模型潜在空间，是模型内部通过学习形成的连续非离散表征空间。它编码文字、多模态信息背后的隐含语义、语法、上下文关联等未被显式 token 表达的信息，是机器原生的计算空间。当前大模型主流依赖显式空间（语言符号空间）运算，存在语言冗余、离散瓶颈、序列低效、语义损失等结构性缺陷。

1.1 潜空间 vs 显式空间：核心差异对比

四大表征属性：

可读性：显式空间是人类可读的离散符号；潜空间是模型原生高维向量，人类不可直接解读但表征更丰富。

存在形式：显式空间离散固定、冗余信息多；潜空间连续灵活，仅保留核心语义。

计算效率：显式空间逐词生成、反复转码，算力浪费严重；潜空间直接向量运算，无额外转换开销。

语义保留：显式空间转码易丢失细粒度语义；潜空间可高保真保留完整信息。

四大功能能力：

可操作性：显式空间非连续不可微分；潜空间连续可微分，支持精准语义操控。

表达能力：显式空间仅限语言可描述内容；潜空间突破词汇语法限制，可处理高维非语言信息。

可扩展性：显式空间受序列长度严格限制；潜空间易适配长推理、多交互场景。

泛化能力：显式空间受语言形式束缚；潜空间捕捉抽象规律，跨领域泛化性大幅提升。

2. 演化：大模型的「潜在空间」是如何不断进化的？

大模型潜空间的研究发展，随技术迭代分为四个递进阶段，从理论想法走向全场景落地：原型阶段、形成阶段、拓展阶段和爆发阶段。

2.1 原型阶段

首次验证推理可脱离自然语言，用连续向量完成；初代潜在推理框架诞生，仅停留在概念验证阶段。

2.2 形成阶段

搭建理论根基，用数学证明潜空间的计算优势；初步试水多模态，仍以文本推理为主。

2.3 拓展阶段

从纯文本全面拓展至视觉、多智能体、机器人具身等领域，技术开始走向成熟。

2.4 爆发阶段

潜空间成为大模型的独立计算空间和范式，专属架构、优化策略批量涌现，文本/视觉/具身/多智能体领域的应用开始爆发。

3. 机制：大模型的「潜在空间」是如何作用的？

潜空间通过架构、表征、计算、优化四大协同维度，构建起全流程运作逻辑，解决「嵌入模型、信息承载、运算处理、效果调优」四大核心问题。

3.1 架构：潜空间的模型集成方式

主干内置：直接改造模型主干，让模型原生支持潜计算; 插件组件：不改动模型主干，加装投影、对齐、存储等插件扩展潜功能; 辅助模型：外部独立模型提供监督信号，辅助主模型生成潜空间。

3.2 表征：潜空间的信息承载载体

内部表征：复用模型隐状态、KV 缓存等内部激活，无额外参数; 外部表征：冻结外部预训练模型，生成潜信息注入主模型; 可学习表征：可训练模块生成潜信息，与主模型端到端优化; 混合表征：结合可学习与外部注入，兼顾灵活性与稳定性。

3.3 计算：潜空间的信息处理模式

压缩计算：压缩推理轨迹、缓存，降低算力消耗; 扩展计算：通过循环、并行拓展算力，提升表达能力; 自适应计算：按输入难度动态分配算力，平衡效率与性能; 交错计算：显式 token 与潜信息、多模态交错运算，融合双方优势。

3.4 优化：全生命周期调优

预训练：让模型从训练初期就具备潜计算能力; 后训练：在预训练模型基础上，精调潜空间适配下游任务; 推理：实时修正潜状态，直接优化输出效果。

4. 能力：大模型的「潜在空间」实现什么能力？

潜空间彻底突破离散token的表达与计算瓶颈，解锁推理、规划、建模、感知、记忆、协作、具身七大核心智能能力：

4.1 推理能力

实现隐式推理、紧凑轨迹、连续迭代修正、分支路径探索、跨模态泛化更强。

4.2 规划能力

支持可控路径探索、高效解空间搜索、自适应分配算力、优化决策轨迹。

4.3 建模能力

可丰富表达复杂计算、自我检视内部状态、实现模型行为的鲁棒控制、提升拓展能力。

4.4 感知能力

保留视觉精细结构信息、实现启发式想象、忠实定位。

4.5 记忆能力

打造工作记忆存储、持久化记忆、多模态记忆召回。

4.6 协作能力

实现智能体间无损语义传输、共享智能体间认识、支持异构模型跨模态互通。

4.7 具身能力：

无监督动作落地、内隐思考规划、场景预测、空间认知、赋能机器人跨硬件泛化迁移。

5. 展望

5.1 现存挑战

难评估：中间计算过程不可见，无法验证推理合理性；难控制：无法精准操控内部连续表征；难解释：高维向量无直观语义，模型行为不可追溯。

5.2 未来发展方向

搭建统一理论：明确潜空间计算原理、与显式空间的协作规则，建立标准评估体系；深耕多模态：打造文本、视觉、动作统一的原生潜计算空间；落地下游任务：用潜空间支撑推理、机器人控制等实际场景落地；实现可控治理：让潜空间可观测、可管控，解决可信性与安全性问题。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

入职三年还是专员？我是如何通过考取CAIE实现职场跳级的（亲测）

AtomGit开源社区

智能提取 + 自定义提取 - 确保精准非结构化文档数据提取

如果你的文档类型比较特殊（如内部报表、特定格式的合同、行业专用单据等），ComPDF AI 也支持自定义模板——点击「选择模板」→「新增模板」，即可根据自己的需求配置提取字段。指定要提取的键值对字段：如合同编号、签约日期、甲方名称、金额等灵活适配不同版式：即使同一类文档排版不同，也能准确提取团队共享：创建的模板可复用，团队成员一键调用自定义模板让 ComPDF AI 不仅是"标准文档提取器"，更能

AtomGit开源社区

魔镜修图性价比分析：年付399元比竞品省多少钱

商业人像摄影行业在近几年经历了从“重人工”到“AI辅助”的加速转型，但后期修图的成本结构依然是制约中小型影楼利润空间的核心因素。一家常规规模的婚纱影楼或写真工作室，全年修图量动辄数万张，旺季单日处理量可达数百张，修图环节的支出在整体运营成本中占据相当可观的比例，却往往被设备采购、场地租赁等显性成本所掩盖。理解这笔账的真实构成，是评估任何AI修图工具性价比的前提影楼修图的成本大致可拆解为人力成本、软