当AI智能体不再局限于“你问我答”的文字交互,而是能承接发邮件、点外卖、整理文件等实际工作,AI便完成了从“对话工具”到“数字助手”的关键跃迁。以OpenClaw(昵称“龙虾”)、阿里千问(因免费点奶茶活动引发关注)、网易有道LobsterAI(有道龙虾)等为代表的智能体,正是这一变革的核心推动者。

本期内容精选10篇论文,从架构革新、核心技术、应用落地三个维度,拆解这些智能体如何打破“对话壁垒”,实现“落地做事”的技术突破,让AI真正融入办公与日常生活。


一、基础范式突破:从“对话响应”到“自主执行”的架构革新

早期AI智能体的核心局限是“有回答、无行动”,仅能基于对话生成操作建议,无法直接对接系统、完成实操。这3篇论文聚焦智能体“做事”的基础架构,让大家能简单理解智能体实现跃迁的核心基石。其中2022年的ReAct框架开创了“推理与行动协同”的先河,为后续智能体设计提供了底层思路。

1. ReAct: Synergizing Reasoning and Acting in Language Models(Published as a conference paper at ICLR 2023)

本文是为“感知-规划-执行-反馈”闭环的奠基性工作,首次提出将推理轨迹(Reasoning)与任务行动(Acting)协同的智能体框架,彻底打破传统语言模型“只推理、不行动”的局限。论文明确定义闭环逻辑:感知(通过外部接口获取环境信息)、规划(生成推理轨迹,拆解任务并明确行动步骤)、执行(调用工具或外部系统完成具体操作)、反馈(接收行动结果,修正推理方向并更新任务状态),解决了大模型推理中的幻觉问题与误差传播,让智能体具备“边想边做、边做边调整”的能力。

在AlfWorld中使用ReAct进行人类介入的行为矫正示例

ReAct框架为智能体提供了底层范式,其“通过外部交互验证推理”的思路,支撑了AI智能体对接本地文件系统、Shell命令的实操能力;同时一些智能体的工具调用模块也深度借鉴了该框架的“推理-行动”协同机制,在点外卖、发邮件等任务中,通过推理轨迹明确操作步骤,再调用对应服务接口执行,确保任务流程可追溯、可修正。

2. Routine: A Structural Planning Framework for LLM Agent System in Enterprise

这篇论文提出了一个名为Routine的结构化规划框架,专门为解决企业环境中LLM智能体系统部署面临的挑战而设计。该框架通过清晰的结构、明确的指令和顺畅的参数传递,指导智能体的执行模块执行多步骤工具调用任务,显著提升了执行稳定性。在真实企业场景的评估中,Routine将GPT-4o的工具调用执行准确率从41.1%提升至96.3%,将Qwen3-14B的准确率从32.6%提升至83.3%。

Routine引导LLM Agent调用工具

本文为企业级智能体提供了一套实用且易落地的稳定工作流构建方案,通过蒸馏领域特定工具使用模式,大幅提升了模型在企业场景的适配能力,有效破解了智能体在复杂业务流程中执行不稳定的核心痛点,加速了AI智能体在企业环境的部署与应用,也为后续企业级智能体的框架设计提供了结构化规划的重要参考范式。

3. OpenClaw, Moltbook, and ClawdLab: From Agent-Only Social Networks to Autonomous Scientific Research

本文聚焦OpenClaw生态的技术突破,首次系统性阐述了“本地优先+系统级执行”的智能体架构,有效避免了传统云端智能体容易泄露隐私和响应延迟的缺点。论文披露,OpenClaw通过“无界面内核+守护进程”模式,实现了与本地系统的深度对接,可直接执行Shell命令、读写文件、控制浏览器,同时构建了ClawHub技能生态,让普通用户无需编程即可扩展智能体“做事”能力。

ClawdLab 平台架构

该论文提出的技术方案直接推动了智能体“聊天即操作系统”理念的实现,让用户可通过日常聊天工具下达实操指令,无需手动操作即可完成文件整理、邮件处理等任务;同时其技能生态与安全优化思路,为其他本地智能体的落地提供了参考,推动智能体向本地化、实用化升级。

二、核心技术突破:“做事能力”的关键落地

如果说基础范式解决了“能不能做”的问题,以下4篇论文则聚焦“做得好、做得稳”方面,从执行精度、跨场景适配、隐私安全、多智能体协同四个维度,解释智能体“做事”的落地关键。

4. UI-Evol: Automatic Knowledge Evolving for Computer Use Agents

本文由微软亚洲研究院撰写,针对智能体“知而不行”的痛点,提出了一款可即插即用的自主GUI知识进化模块UI-Evol。该模块包含回溯和批判两个核心阶段,前者从智能体与环境的实际交互中提取真实客观的动作序列,后者将这些序列与外部参考对比以优化现有知识。论文实验显示,加入UI-Evol模块后,智能体在实际任务中的执行成功率从41%提升至89%,同时降低了执行行为的随机性,提升了稳定性。

UI-Evol 包含的两个阶段

OpenClaw、千问均集成了类似UI-Evol的执行优化模块,确保发邮件、点外卖等任务的精准执行——例如,千问在点外卖时,可通过该模块验证商家库存、配送范围,避免出现“下单失败”“配送超时”等问题;OpenClaw在执行文件整理任务时,可通过模块回溯操作轨迹,修正误删、误存等错误。

5. A Survey of AI Agent Protocols

本文为首篇系统梳理AI智能体通信协议的综述类论文,解决了当前智能体与外部工具、多智能体间缺乏统一交互标准,导致闭环衔接不畅、难以规模化落地的核心痛点。论文构建了AI智能体协议的二维分类框架,系统梳理现有通信协议的优势与不足,明确闭环各环节的协议适配逻辑。同时,论文通过对比分析安全、扩展性、延迟等关键维度,为不同场景下智能体闭环选择适配协议提供了量化参考。

Agent互联网生态系统的分层架构

论文的协议分类框架与适配逻辑,对MCP协议优化有推动作用,解决了此前不同工具接口不兼容导致的闭环断裂问题。论文中的隐私保护协议设计,提升了闭环异常处理效率,推动智能体在多场景的规模化落地,与前文UI-Evol模块的执行优化、后文沙箱隔离的安全管控形成技术互补。

6. ShieldAgent: Shielding Agents via Verifiable Safety Policy Reasoning

本文聚焦智能体的安全防护痛点,针对恶意指令与攻击导致的隐私泄露、财务损失等问题,提出了首个专为智能体设计的护栏系统ShieldAgent。论文通过从政策文档中提取可验证规则并构建行动概率规则电路,形成安全政策模型,再结合工具库与可执行代码对受保护智能体的行动轨迹进行形式化验证,同时构建了包含3K安全相关样本的ShieldAgent-Bench基准数据集,覆盖6类网络环境与7大风险类别,填补了智能体护栏基准的空白。

SHIELDAGENT概览

ShieldAgent的安全防护方案为智能体的风险管控提供了关键技术支撑。论文不仅在三大现有基准与自建ShieldAgent-Bench中实现最优性能,还通过减少64.7%的API查询与58.2%的推理时间,兼顾了防护精度与效率,为智能体在高安全需求场景(如金融、办公)的落地扫清了关键障碍,推动智能体安全防护从被动拦截向主动验证升级。

7. AnyMAC: Cascading Flexible Multi-Agent Collaboration via Next-Agent Prediction

本文针对基于大语言模型的多智能体协作现有方法依赖静态或图结构的智能体间拓扑、通信缺乏适应性与灵活性的问题,提出了 AnyMAC 这一新框架。该框架摒弃图结构,以序列结构重构多智能体协同模式,为多智能体通信拓展了更大的拓扑空间。该架构的核心包括“下一个智能体预测”与“下一个上下文选择”两大核心机制,构建任务自适应的通信流水线,在保障全局信息流通的同时,赋予智能体角色动态调整能力。

基于大语言模型的多智能体通信拓扑设计比较

本文的动态协作思路为多智能体任务分配系统提供了关键优化方向,其“角色按需匹配+上下文精准调用”机制,让智能体在复杂办公协同场景中,可动态调整参与智能体,减少无效交互。经多基准测试验证,该框架在提升协作性能的同时显著减少通信成本,为智能体从“固定分工协作”向“动态按需协同”升级提供了核心技术支撑,推动多智能体系统在灵活适配场景的落地。

三、应用落地及展望:让“做事”覆盖全场景

智能体要真正“落地做事”,离不开生态扩展与场景适配。这3篇论文聚焦技能生态、生活场景、办公场景的落地,推动智能体从“单一做事”向“全场景做事”升级,覆盖发邮件、点外卖、科研辅助、客户服务等多元需求。

8. CUA-Skill: Develop Skills for Computer Using Agent

该论文聚焦计算机使用智能体的技能落地,提出了CUA-Skill这一计算机使用智能体技能库。同时基于该技能库构建了端到端的 CUA-Skill Agent,该智能体支持动态技能检索、参数实例化以及内存感知的故障恢复功能,实验结果表明,CUA-Skill 在高难度的端到端智能体基准测试中显著提升了执行成功率和鲁棒性,为未来计算机使用智能体的研发奠定了坚实基础。

CUA-Skill及相关Skill-Agent概览

本文构建的桌面应用技能库,填补了AI智能体在桌面办公场景的技能适配空白,大幅提升了智能体在Windows等桌面系统的实操能力,推动智能体从“云端交互”向“本地桌面实操”延伸。其技能与桌面应用的适配逻辑,为行业提供了桌面场景智能体的落地参考,降低了桌面智能体的开发难度,让智能体可高效适配各类办公软件,真正融入日常办公流程。

9. Simulating Human-like Daily Activities with Desire-driven Autonomy

该论文针对当前 AI 智能体依赖明确任务指令或奖励函数、自主性与行为多样性不足的问题,提出了基于需求理论的欲求驱动自主智能体(D2A),其核心由动态价值系统与欲求驱动任务规划器构成,整合社交互动、自我实现、自我关怀等多维度类人欲求,通过“感知欲求-生成候选行为-预判效果-自主选择”的决策流程,在Concordia文本模拟器的室内生活与室外派对场景中,生成了连贯、贴合语境且兼具多样性与适应性的类人日常活动,相较于 LLMob、ReAct等主流智能体,显著提升了模拟活动的理性与类人度,且降低欲求不满度的效率接近真实人类。

D2A框架

这篇论文突破了传统“指令驱动”或“个性驱动”的智能体范式,首次将人类多维度内在欲求系统性融入智能体架构,为智能体赋予了自主行为的核心动机,填补了类人自主决策建模的空白;同时其提出的欲求价值系统与决策流程,为生活陪伴、社交模拟等需要类人自主交互的智能体落地提供了可行框架,为后续智能体的内在动机建模与类人行为生成研究提供了关键参考。

10. OdysseyBench: Evaluating LLM Agents on Long-Horizon Complex Office Application Workflows

本文针对现有基准多聚焦独立原子任务、无法捕捉真实办公场景中长程上下文依赖与多应用协同需求的问题,提出了面向LLM智能体的长程复杂办公流程评估基准OdysseyBench,其包含源自真实用例的300个任务(OdysseyBench+)与302个合成复杂任务(OdysseyBench-Neo),覆盖Word、Excel、PDF等多种办公应用,要求智能体从长程交互历史中提取关键信息并跨应用多步推理;同时提出多智能体框架HomerAgents,通过系统环境探索、任务生成与对话合成实现长程工作流基准的自动化规模化构建,评估结果表明该基准能更精准地挑战主流 LLM 智能体,相比原子任务基准更贴合真实办公场景的能力评估需求。

HomerAgents框架概述

HomerAgents框架则解决了复杂长程基准构建效率低的难题,实现基准的规模化生成,推动办公智能体从单一任务执行向多应用协同、长流程自动化的落地演进,也为后续真实生产力场景中智能体的研发与优化提供了关键参考,助力提升智能体在复杂办公场景中的可靠性与实用性。

小结:从OpenClaw的“系统级执行”,到千问的“生活服务对接”,再到有道LobsterAI的“桌面自动化”,这些智能体不再停留在“用户问一句、答一句”层面,而是蜕变为能理解复杂意图、拆分任务、调用工具的智能助手,完成了从“被动响应”转变为“主动执行”转变。未来,随着技术的持续迭代,AI智能体将进一步降低“做事”门槛,覆盖更多办公与生活场景,实现“一句话指令,全流程完成”的终极目标,成为人类不可或缺的数字助手。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐