人工智能

1.什么是人工智能?

人工智能(ArtificialIntelligence,简称:AI): 是指通过计算机系统模拟人类智能的技术。通过这种技术实现人类的认知和思维活动,从而可以完成许多复杂的任务,比如学习,推理决策等。本质就是通过算法和数据,让机器具备类人能力。

刷短视频,短视频平台知道你喜欢看什么,⼀直给你推荐→ 这就是⼈⼯智能在“学习”和“预测” 你的喜好。(⽐如抖⾳、⼩红书等都有这样的能⼒)

跟语⾳助⼿说话,它能听懂你在讲啥,还会回答你→这是⼈⼯智能在“听”和“说”(⽐如: Siri、⼩爱同学)

拍照⾃动识别⼈脸、美颜、翻译⽂字→这是⼈⼯智能在“看”和“理解” (⽐如:各种美颜相 机)

⽤应⽤⽣成⼀段逼真的视频,只要输⼊⽂字就能⾃动⽣成画⾯→这是⼈⼯智能在理解⽂字并创作⽣ 成内容(⽐如Sora、即梦、可灵)

开⻋时的⾃动驾驶 →这是⼈⼯智能在“思考”和“做决策”(⽐如:新能源汽⻋)

AI 应用: 把人工智能的能力,运用到具体业务和实际场景中,以产品或系统的形式落地。豆包、自动驾驶辅助系统等。

AI 算法: AI 算法,就是计算机模仿人类思考、学习、判断时,遵循的数学公式+执行流程,是实现这些能力的具体方法和逻辑。(AI算法=AI的“大脑逻辑”,人工智能要靠AI算法实现)

常见的AI算法:线性回归、逻辑回归、决策树&随机森林、⽀持向量机(SVM)、卷积神经网络等

Agent(智能体): Agent (智能体) 是⼀个能够感知环境输入、自主决策、规划⾏动路径,并可调⽤⼯具或执行操作以 达成⽬标的⾃主性软件实体.

                            Copilot 模式:AI作为“副驾驶”,在工作中实时提供建议、给出问题答案与参考方案,但最终决策与控制权完全由人类掌握。

                            Agent与Copilot模式区别:Copilot模式是⼈主导、AI提供建议并由人决定是否执行;Agent模式是 AI自主进行任务规划并调用工具完成执⾏。

Copilot 模式举例:chatGpt普通问答模式、cursor的Ask模式

Agent 模式:cursor的Agent模式、智能客服Agent(帮你订机票、点外卖)

vibecoding(AI编程): Vibe Coding 是⼀种以⾃然语⾔驱动的软件开发⽅式,开发者通过描述需求或意图(⽽⼿写代 码),借助⼤语⾔模型⾃动⽣成、修改代码,从⽽完成开发任务。作为开发者只管验收、反馈、迭代,快速把想法变成可运⾏程序。其实就是氛围编程 。自己只“感受”结果而不深究细节,是一种高层次的、近乎“口述”的编程方式

常⽤的vibecoding⼯具

AI 原⽣IDE(AI增强版编辑器,⽇常开发主⼒):

Cursor:https://cursor.sh

Windsurf:https://windsurf.com

Trae:https://trae.ai

CLI:(不占界⾯,只在终端打字。)

Claude Code(Anthropic):https://claude.ai/code

Aider:https://aider.chat

Cline:https://cline.bot

即时⽣成:(⼀句话⽣成可运⾏项⽬,快速出Demo)

Devin https://devin.ai/

atomshttps://atoms.dev/

秒哒https://www.miaoda.cn/

码上⻜https://www.codeflying.net/

2.人工智能,机器学习,深度学习三者的关系是什么?

人工智能(AI):目标是让机器拥有类似⼈类的智能。(概念参考上⼀题)

机器学习(ML):机器学习(MachineLearning)是⼈⼯智能的核⼼实现⽅式。它通过数据训练模型,让机器自动学习规律,⽽不是依赖⼈⼯编写规则。机器学习的常⻅⽅法包含:线性回归/逻辑回归、决策树&随机森林、⽀持向量机(SVM) 等。

深度学习(DL):是机器学习的⼀个重要分⽀。是⼀种基于多层神经⽹络,让机器⾃动从海量数据中学习特征与规律,从⽽实现感知、理解与⽣成的⾼级机器学习⽅法。是ML的一个子集,因其在图像、语音、自然语言等复杂任务上的惊人效果而几乎成为代名词。但它不是唯一方法,决策树、支持向量机等传统机器学习算法在结构化数据上依然有效。

三者关系:深度学习是机器学习的重要分支,机器学习是人工智能的核⼼实现⽅式。

三者是包含关系:人工智能 > 机器学习 > 深度学习

3.什么是LLM(大语言模型)?

LLM全称LargeLanguageModel,叫大语言模型,是一种基于海量文本数据训练、能理解和生成人类语言的人工智能模型。简单说,它就像一个基于海量文本训练出的统计规律引擎,能续写、对话、回答问题,但并不具备真正的“理解”或“意识”。

1. 知名模型举例

  • GPT-4 / GPT-4o(OpenAI)
    支持 ChatGPT 和 Microsoft Copilot,能对话、写代码、分析图像内容等。

  • Claude 3.5 / 3 Opus(Anthropic)
    强调安全与长文本理解,常用于文档分析、法律合规咨询。

  • Gemini(Google)
    原生支持多模态(文本、图像、视频),集成在 Google Workspace 中辅助写作、总结。

  • 文心一言(百度)
    中文优化,支持检索增强,用于内容创作、知识问答。

  • 通义千问(阿里)
    集成在钉钉、夸克,可做会议纪要、文案生成。

2. 应用场景举例

  • 编程辅助:用 GitHub Copilot(基于 GPT)自动补全函数或生成单元测试。

  • 会议记录:将两小时的音频文字稿输入 Claude,让它生成摘要和待办事项。

  • 学术润色:把论文摘要输入 Gemini,要求按 Nature 风格改写。

  • 客户服务:用文心一言构建企业智能客服,自动回答产品政策、退换货流程。

Prompt

4.什么是Prompt(提示词)?提示词的基本结构包括哪些部分?什么是提示词工程(Prompt Engineering)?

提示词是用户或系统提供给大语言模型(LLM)的指令或文本,用于引导模型生成特定输出。就是与AI对话的起点——告诉模型“要做什么”或“想要什么答案”。

提示词的两种类型:系统提示词 vs 用户提示词

类型 定义 核心功能 示例
系统提示词 由开发者预设,嵌入系统后端,持续影响所有交互 定义模型角色、行为规范、知识边界、安全过滤等 预设:“你是⼀名客服,用友好语⽓解答问题”
用户提示词 由终端用户直接输入,触发单次任务 传达即时需求(如提问、指令) 用户输入:“查询订单”

类比:系统提示词如同“操作系统”,持续影响所有交互,可以理解为预先设定好的;用户提示词如同“操作指令”,驱动单次任务执行。


提示词的基本结构(通用要素)

一个完整、高效的提示词通常包含以下部分(可灵活组合):

组成要素 说明
角色/身份 指定模型扮演的角色
任务/指令 明确要求模型执行的具体动作
上下文/背景 提供必要的背景信息
输入数据 需要模型处理的具体内容(文本、数字等)
输出格式要求 规定结果的呈现方式(格式、长度、风格等)
示例(Few-shot) 给出1-3个输入→输出的范例,帮助模型模仿

CO-STAR 结构化框架(一种优秀的提示词设计方法)

CO-STAR 框架将提示词拆解为7个关键维度,便于系统化设计:

缩写 含义 说明
C Context(背景) 提供足够的背景信息,帮助AI理解任务的上下文和环境
O Objective(目标) 明确说明希望AI完成的具体目标或任务
S Style(风格) 指定AI生成内容的风格,例如正式、幽默、小红书风格等
T Tone(语气) 确定AI生成内容的语调,如礼貌、说服性、激励性等
A Audience(受众) 描述目标受众的特征,如年龄、兴趣、职业等
R Response(响应格式) 指定AI回应的格式,如表格、段落、列表等,以及回应的具体要求

完整的提示词示例(基于 CO-STAR 框架,以西安肉夹馍美食短文为例)

【角色】
你是一名资深美食专栏作家,擅长用文字“让读者流口水”。

【背景】
平台:微信公众号,读者20-35岁,晚上9点,有点饿。
对象:西安肉夹馍(腊汁肉夹白吉饼)。
卖点:馍酥脆、肉软烂、肥不腻、瘦不柴。

【任务】
写一篇约300字的美食短文,要求:

  1. 开头用一句话抓住注意力。

  2. 分别描写“馍”和“肉”,各用至少1个比喻。

  3. 结尾让读者产生“现在就想吃”的冲动。

  4. 自然融入“酥、脆、软、烂、香”5个关键词。

【输出格式】
标题:不超过15字
正文:分3段(开头/描写/结尾),每段空一行。

【补充约束】

  • 语气:热情馋人,像朋友深夜发美食照片;用“你”制造对话感,加拟声词(咔嚓、滋啦、嗯~)。

  • 风格:市井烟火气,轻快爽利;句子偏短,口语化(贼香、一口下去、没谁了)。

  • 不写制作过程,不写店铺地址。

  • 禁用“垂涎欲滴”“回味无穷”“唇齿留香”等陈词滥调。

  • 每段至少一个短句(不超过10字)。

【示例(可选)】
输入:xxxx
输出:xxxx


什么是提示词工程(Prompt Engineering)

提示词工程是指通过设计和优化输入给大语言模型的提示词,来引导模型生成更准确、更稳定、更符合预期结果的一种工程方法。

它不仅仅是“写一段话问AI”,而是一种系统性的调试过程,包括:

  • 实验不同措辞、结构、角色扮演

  • 加入Few-shot示例来提升输出质量

  • 分解复杂任务为多步提示(链式提示)

  • 控制输出格式(JSON、表格、代码块等)

  • 避免模型产生幻觉、偏见或无关回答

随着大模型的发展,提示词工程已成为AI应用开发的重要技能,也是低代码/无代码方式调用模型能力的核心手段。

5.有哪些设计和优化提示词(Prompt)的技巧?

回答话术:提示词设计与优化技巧包括:

基础层面采用角色提示(设定身份约束语气与专业度)、结构化指令(用分隔符或Markdown区分背景/指令/输出)和少样本提示(给1-3个示例让模型学习格式);

进阶推理使用链式思考(CoT)(要求一步步展示推理过程)和自我一致性(多次独立推理后投票选出最一致答案)来提升复杂问题准确率;

优化迭代遵循由浅入深策略(先简单指令,观察输出后逐步添加约束,每次只改一个变量)。

基础提示技巧

技巧名称 说明 示例
角色提示 通过设定身份(如“你是一位资深的Python架构师”或“你是一位善解人意的心理咨询师”)来约束模型的语气、专业深度和思维方式 “你是一名资深财务分析师,请帮我解读这份报表”
结构化指令引导 使用特定分隔符(如:"""【】<> 或 XML 标签)、列表以及 Markdown 格式等清晰界定指令、背景信息、输入数据和输出要求,防止模型混淆 用 【角色】【任务】【输出格式】 等标签分隔不同部分
少样本提示 提供 1~3 个正确示例,让模型快速学习格式与规则 其实就是举例子 给出一个“输入→输出”的配对示例,再让模型处理新输入

进阶推理技巧

1. 链式思考(Chain-of-Thought, CoT)提示

让模型分步推理,先思考再输出答案,大幅提升复杂问题的准确率。

提示词示例:

请一步步推理以下问题,展示你的完整思考过程,最后得出结论:
一件衣服原价是200元,先打8折,再减去满100减20的优惠券,最后还要加上5%的税费。小李用这张优惠券买这件衣服,实际支付多少钱?

2. 自我一致性(Self-Consistency)

传统链式思考只走一条推理路径;自我一致性则探索多条路径,最终聚合为一致答案。它不依赖“一次思考定生死”,而是通过“多次尝试 + 投票机制”来提高准确率。

案例:

问题:小明有24颗糖,他每天吃3颗,中途休息了一天没吃。问他总共吃了几天才吃完?

推理路径 过程 输出
传统思维链(CoT) 每天吃3颗,24÷3=8天 8(错误,忽略了休息)
自我一致性 - 推理1 吃糖时间共需8天,加上中间休息1天,实际经过9天 答案为9
自我一致性 - 推理2 第1~7天吃完21颗,第8天休息,第9天吃完剩下3颗,共经历9天 答案为9
自我一致性 - 推理3 直接计算:8天进食 + 1天休息 = 9天 答案为9
投票汇总 多数答案为9,投票决定最终输出 9(正确)

提示词示例(用于自我一致性):

请从不同角度独立思考以下问题三次,每次采用不同的表达方式或拆解顺序,展示完整推理过程。然后比较三个答案,选择最合理且一致的结果作为最终输出。

问题:小明有60张游戏卡牌,他每天卖出5张。第3天结束后,他休息了2天没卖,之后继续每天卖5张。问他一共用了多少天才卖完?

要求:

  1. 每次推理必须独立,不能复制前面的内容

  2. 最终输出格式为:
    → 第一次推理:...
    → 第二次推理:...
    → 第三次推理:...
    → 综合判断与最终答案:...

Token(词元)

6.什么是Token?Token在大语言模型中的作用是什么?

Token(词元)概念:

Token(词元)是⼤语⾔模型(LLM)处理⽂本时的最⼩语义单位。是将⽂本拆解为 模型可理解的离散单元.(不是字,也不是单词) 

Token(词元)通过⼤语⾔模型的分词器将⽂本拆分⽽来,不同模型的分词器不同,同⼀个词在不同模型中可能被拆分成不同的Token。

Token分类:
 

PromptToken/InputToken(输⼊Token) 发给模型的内容:问题、历史对话、上传的⽂ 档、系统提⽰词等。
CompletionToken/OutputToken(输出Token) 模型⽣成的回答。

Token在大语言模型中的作用

计费单位几乎所有商用大模型(GPT、Claude、通义千问、⽂⼼等)都按Token收费:输⼊ Token+输出Token。

上下文长度限制模型有最⼤上下⽂窗⼝(如8k、32k、128k、1MToken),超过上限模型就无法处理,会截断或报错。

决定模型理解能力Token切分越合理,模型越能理解语义;同时Token数量直接影响推理速度、显存占用、成本。

会话记忆

7.什么是会话记忆(Chat Memory)?有什么作用?

会话记忆包括:

1.用户之前说过的话 2.模型之前的回答 3.当前对话的上下⽂状态

在对话系统中,会话记忆指的是模型对历史对话内容的存储与利⽤机制,属于上下⽂理解的核⼼ 能⼒之⼀。

会话记忆的作用

1,上下⽂连贯:能理解“它”“这个”等指代,让对话流畅不脱节。

2,减少重复输⼊:⽆需每次重复背景信息,交互更⾼效。

3,个性化体验:记住用户偏好、历史偏好,提供定制回复。 

4,多轮任务完成:逐步收集信息,⽀持复杂任务(如写代码逐步完善、信息咨询)。

8.会话记忆和上下文窗口(Context Window)是什么关系?

会话记忆与上下文窗口的关系可概括为:上下文窗口是容量上限,会话记忆是占用容量的主要内容之一。

  • 上下文窗口:模型单次能处理的最大输入 Token 数量(如 8K、128K),相当于一个“背包”的总容量。

  • 会话记忆:历史对话记录(用户提问 + 模型回答),需要被放入当前请求的输入中,以便模型“记住”之前聊过什么。

关系公式:
当前用户输入 + 会话记忆(历史对话) + 系统提示词 + 其他上下文 ≤ 上下文窗口大小

一旦总 Token 数超出窗口,模型会截断最早的内容(丢失记忆)或直接报错。因此:

  • 窗口越大,能保留的会话记忆越长。

  • 超出窗口时,需要手动截断或总结历史对话,才能继续会话。

比喻:上下文窗口 = 背包容量;当前输入 + 会话记忆 + 系统提示词 = 要装进背包的所有东西。东西太多就装不下,必须丢掉一部分(丢失记忆)。

多模态

9.什么是多模态?常见的模态有哪些?典型应用场景有哪些? 

多模态:是指融合⽂本、图像、⾳频、视频等多种类型信息,让模型能理解、⽣成不同模态数据的 技术。 单模态只能处理⼀种数据类型。

常⻅模态:⽂本(Text)、图像(Image)、⾳频(Audio)、视频(Video)。

典型应⽤场景:

任务类型 输入 输出 典型场景
智能问答(图+文) 图片 + 文本问题 文本答案 医疗影像分析(上传CT图片问“是否有结节?”)
文生图 文本描述 图片 AI绘画(生成“一只穿西服的猫”)
图生文 图片 文本描述 商品描述生成(上传商品图,自动写卖点文案)
语音助手 语音 语音 智能客服、车载助手(语音→文字→LLM→语音回复)
视频理解 视频 文本摘要 / 行为标签 视频摘要生成、安防异常行为识别、内容审核

RAG

10.什么是RAG(检索增强生成)?它能解决大模型的什么问题?

RAG(Retrieval AugmentedGeneration,检索增强⽣成),是⼀种结合外部知识库检索与⼤模型 ⽣成的技术。核⼼是让⼤模型在回答前先“查资料”(外部知识库),再基于检索到的权威信息⽣成 答案,解决模型知识过时、幻觉、专业知识不⾜三⼤核⼼问题。

RAG就是给ai装上一个大脑让它在回答问题时,先从外部知识库(如⽂档、数据库)中检索相关 ⽚段,再将这些⽚段作为上下⽂,输⼊给模型.这样,AI的回答就基于真实、最新数据,⼤幅减少"幻觉", 同时⽀持动态知识更新。

其实就是假如你去参加历史开卷考试。然后传统的LLM就是闭卷考试,你只能死记硬背。RAG就是开卷考试,给你发一本历史书(RAG的知识库)你先快速翻书, 再根据书⾥的内容组织答案(⽣成),确保答案是真实的

RAG让AI从"背书机器"升级为"会查资料的专家",适合需要⾼准确性的场景

问题 RAG的解决方式
知识过时 接入最新文档、实时数据、内部知识库,实现“动态知识”
幻觉(编造答案) 基于真实文档回答,提供依据,大幅降低幻觉
私有知识缺失 接入企业知识库、本地文件,实现“企业专属AI”
上下文窗口限制 仅检索相关片段而非全量数据,节省Token
可解释性差 返回引用来源,支持结果溯源(“白盒化”)

11.RAG 的核心工作流程是怎样的?

一、离线准备阶段

第一步:数据采集
数据来源包括:文档(PDF/Word/Markdown)、数据库、API、网页。

第二步:文档切分(Chunking)
把长文档拆成小块,以提高检索精度、适配上下文窗口。

第三步:向量化(Embedding)
将每个 chunk 转换为向量。

第四步:存储到向量数据库
存储内容:向量 + 原文 + metadata(元数据)。
常见向量数据库:Milvus、Pinecone 等。

二、在线查询阶段

第一步:数据查询检索
用户输入问题 → 将问题转换为向量 → 在向量数据库中进行相似度搜索(常见算法:余弦相似度、向量距离)→ 寻找最相似的文档块。

第二步(可选):重排序(Re-ranking)
对检索结果进行再次排序(用更强模型筛选最相关内容)。此操作为可选。

第三步:Prompt 构建 & 答案生成
将检索结果和用户问题组合起来,构造成一个完整的 Prompt,放入上下文窗口 → 调用大模型 → 模型生成答案并返回。

其实很简单就是

文档加载

文本分割

向量存储 

检索

增强生成

Tool Calling(工具调用)

12.什么是工具调用(Tool Calling)?

Tool Calling(⼯具调⽤)是AI应⽤中的⼀种常⻅技术模式,指⼤语⾔模型(LLM)能够根据⽤⼾ 请求,智能地选择并调⽤外部⼯具(如函数、API、服务等)并获取执⾏结果,以此扩展并增强⾃⾝能力的技术流程。

就是知识滞后;无法精确计算;无法与现实世界交互。所以用Tool Calling去解决

Tool Calling VS Function Calling 函数调⽤(FunctionCalling)是⼯具调⽤(ToolCalling)的早期叫法与核⼼形式,现在⾏业⾥⼀般统⼀称为⼯具调⽤(ToolCalling)。函数调用(FunctionCalling)是指LLM请求调⽤⼀个开发者预定义的函数(Function), 这⾥的"函数"就是你代码中的⼀个⽅法. ToolCalling是⼀个更通⽤、更 ⼴泛的概念,不仅包含FunctionCalling,还涵盖了调⽤其他类型的⼯具.

MCP

13.什么是 MCP?与Tool Calling 的区别是什么?

MCP(ModelContextProtocol,模型上下⽂协议) 由AI公司Anthropic于2024年11⽉推出 的开源标准协议。为⼤语⾔模型(LLM)与外部系统、⼯具和数据源提供标准化的安全双向通信接 ⼝,解决AI集成的「N×M」复杂度问题,常被类⽐为AI领域的「USB-C」或「通⽤接⼝」。

其实就是大模型和外部接口的共同协议,类似TCP协议。

以前⼤模型想要接⼊各类外部系统或⼯具等,每个模型和每个⼯具/系统之间都要单独开发⼀套专属对接逻辑,适配成本极⾼、复⽤性极差。 现在有了MCP,就像所有设备都统⼀⽤使⽤USB-C只要遵循这个标准,就能即插即⽤. N:各种⼤模型(GPT、Claude、DeepSeek、通义千问、⽂⼼⼀⾔) M:各种⼯具/系统(数据库、浏览器、代码IDE、邮箱、ERP、⻜书、企业内部接⼝…)

在MCP协议中核⼼的组成部分是MCPClient和MCPServer、MCP主机(AI应⽤)。

MCPClient是⼤模型系统内的“连接器”,负责按MCP协议发起连接、调⽤外部服务; 其实现可基于MCP官⽅提供的SDK,只需完成协议适配和请求封装,⽆需复杂开发。

MCPServer是外部⼯具的“适配器”,会按照MCP协议将⼯具功能封装成标准接⼝,供Client 调⽤,⼆者配合实现模型与⼯具的即插即⽤。MCPServer⽀持两种获取⽅式,既可以基于MCP官⽅规 范⾃⾏开发,适配⾃⾝个性化需求,也可以直接使⽤现成的服务。

为了⽅便开发者快速找到适配的现成MCPServer,⽆需⾃⾏从零开发,⽬前有多个主流渠道可获取各类MCPServer,

区别Tool Calling 是 LLM 调用外部工具的能力(一种功能),而 MCP 是实现这种调用的标准化协议(一种规范/接口标准)。

一句话总结:Tool Calling 是“能做什么”,MCP 是“按什么规则做”。

14.MCP 的核心工作流程是什么?

1. 初始化连接(握手建连)
MCP主机启动,创建 MCP Client,并按照配置与 MCP Server 建立通信连接。(一个主机可同时连接多个 MCP Server,每个 Server 独立承载不同的工具与能力)

2. 能力发现(工具/资源列表)
Client 向 Server 发起能力查询,Server 返回结构化清单:名称、描述、参数、权限。Client 将工具信息同步给主机,让 LLM 明确自身可调用的外部能力边界。

3. 执行决策 & 调用工具(LLM驱动)
用户输入问题后,Client 自动整合可用工具列表、用户原始问题与对话上下文,并以标准化格式封装后发送给 LLM。LLM 依据上下文及工具元信息进行智能决策:

  • 判断是否需要调用外部工具、选择具体工具并匹配合规入参;

  • 若无需调用工具,则直接生成自然语言回复,跳过后续执行环节。
    若 LLM 确定调用工具,Client 将结构化的调用请求精准转发至对应 MCP Server;由 Server 承担实际执行职责,完成 API 调用、数据库读写、脚本运行或文件系统操作等任务,执行完毕后,以统一结构化格式将结果回传给 Client。

4. 结果回传 & 输出
Client 把工具执行结果回传给 LLM,模型融合工具执行结果、用户问题与对话上下文,生成符合需求的自然语言回答,再由 Client 通过主机应用展示给用户。

Agent & 工作流

15.什么是工作流(workflow)与Agent区别是什么?

工作流(Workflow)是按照预先定义好的步骤和规则依次执行任务的流程化机制,流程固定、可预期,每一步做什么都是提前设计好的,更像一条“流水线”。

例如:员工提交请假申请 → 直属上级审批 → 人事核对备案 → 流程结束。

Agent是能够感知环境输入、自主决策、规划行动路径,并可调用工具或执行操作以达成目标的自主性软件实体。

两者的区别:工作流是“人预先定义步骤的自动化流程”,而Agent是“大模型(LLM)根据目标动态控制流程走向”。

16.什么是多Agent模式,什么场景下需要使用多Agent协作而不是单个Agent解决?

多Agent模式:将一个复杂任务拆分给多个具备不同职责的Agent,由它们协作完成整体目标的系统。可以理解为:从“一个人干所有事”,变成“一群分工明确的人协作”。

什么场景下需要使用多Agent协作:当任务复杂到“一个Agent无法稳定、清晰地完成”时,就需要多Agent。尽管可采用单个Agent整合并执行复杂任务,但这种超级Agent架构存在明显弊端。以下将对其主要问题展开说明。

  • 上下文限制:一个Agent需要将所有任务的内容、工具描述、历史记录都塞进有限的上下文窗口。这会导致信息过载、成本剧增、推理速度下降。

  • 角色冲突与指令污染:同一个Agent同时扮演多个角色时,系统提示词会发生冲突,导致行为混乱或平庸化。

  • 单点故障与脆弱性:单个Agent一旦在某个步骤推理出错或遇到未知情况,整个任务链可能崩溃。

多Agent模式是指:在一个系统内部,由同一个大模型或框架驱动多个具有不同职责的Agent,它们自动感知、分工、协作完成一个复杂任务。

比如:

  • 一个“写代码Agent”写完代码后,自动触发“测试Agent”去执行测试,测试发现bug再自动交给“修bugAgent”去修正。

  • 整个过程无需人工干预,Agent之间通过程序化的消息或共享记忆协同工作。

skills

17.什么是skill和Tool Calling的区别是什么?

定义

  • Tool Calling:大模型调用外部工具的能力,每个工具对应一个单一操作(如查天气API、数据库查询、发送HTTP请求)。可理解为“手里的工具”。

  • Skill:模型经过学习或配置后,可重复执行的标准化任务能力,通常由多个 Tool 调用组合而成。可理解为“一项完整的技能”。

核心区别

  • Tool(工具) = 单一操作(粒度细)

  • Skill(技能) = 完成某项任务的完整能力(粒度粗),内部可能涉及多个 Tool 的协同调用

举例

  • Tool:查天气API、查机票API、查酒店API、发HTTP请求

  • Skill:“规划旅行”——会用到:查天气 + 查机票 + 查酒店 + 生成行程

常用 Skill 平台

平台 网址 特点
ClawHub https://clawhub.ai/ OpenClaw 官方 Skill 注册中心,对 OpenClaw 用户友好
Claude Code 官方市场 https://llmskills.org/ 对 Claude 用户友好
SkillsMP https://skillsmp.com 12万+ GitHub 开源 Skill,适合“淘技能”
腾讯 SkillHub https://skillhub.cn/ 腾讯生态友好
阿里云官方 Skill 平台 https://skills.aliyun.com/ 阿里生态友好

Manus

18.什么是 Manus?什么是 OpenManus?

Manus

Manus 是一款由原中国团队 Monica 开发的人工智能智能体产品,于 2025 年 3 月 6 日发布。

工作原理:当你向 Manus 下达一个指令,它会在云端启动一个隔离的虚拟环境(沙箱),然后自主调用其中的浏览器、代码执行器、文件系统等工具,像真人一样规划步骤、执行任务,最终交付成果。

OpenManus

OpenManus 是一个开源的自主规划智能体项目,可以理解为对 Manus 的开源复刻/实现版本。

特点

  • 完全开源:项目代码完全公开,任何人都可以查看、修改,甚至参与开发,实现功能定制。

  • 本地运行:它利用开发者自己电脑的计算资源来执行任务,并将每一步的“思考过程”都清晰地展示出来。

OpenClaw

19.OpenClaw是什么?它的核心能力有哪些?

OpenClaw(曾用名 Clawdbot、Moltbot,昵称“小龙虾”)是一款开源的、本地优先的 AI 智能体。与传统的聊天机器人不同,它不仅能“说”,还能直接操控计算机完成实际操作。它是一个本地 AI Agent 运行平台,官网地址:https://openclaw.ai/

核心能力

  1. 本地优先:所有数据和运算都在用户本地设备上进行,而非上传到云端服务器,隐私性更强。

  2. 模型无关执行引擎:兼容所有主流商用/本地大模型,切换只需改配置无需调整代码,支持混合调度、故障降级,切换便捷。原生支持 OpenAI、Claude、Google Gemini、DeepSeek、千问等商用模型,以及 Ollama 本地部署的 Llama、Qwen、Gemma 等开源模型。

  3. 标准化 Skill 生态:基于 OpenClaw 统一 Skill 规范,构建可插拔、可版本化、可复用的技能生态。

  4. 7×24 常驻主动式运行网关:以常驻守护进程为核心,支持崩溃自动拉起、心跳巡检、Cron 定时调度与事件驱动触发,打破传统 AI 工具“被动应答”的局限,实现无人值守的自动化基础设施。

  5. 持久化记忆与跨平台互通:适配主流 IM/协作平台(QQ、Telegram、飞书、钉钉等),统一消息格式,新增渠道零改动核心逻辑;内置持久化记忆,支持人格设定、跨会话记忆与知识沉淀。

发行版本(部分第三方发行版)

20.请介绍下OpenClaw的核心架构

OpenClaw 采用分层模块化设计,主要由以下四层构成:

  1. 接入层(Channel)
    最外层的接入适配组件,为各类消息平台提供独立插件。核心功能:完成平台私有消息格式与系统内部统一消息结构的双向转换。通过插件化机制实现多渠道解耦,新增接入渠道无需修改核心逻辑,只需扩展对应插件,提升扩展性与可维护性。

  2. 网关层(Gateway)
    整个系统的中枢,统一承接所有外部请求,集中完成鉴权、过滤非法请求后,将合法消息向下游分发。

  3. Agent
    OpenClaw 的“大脑”,负责理解用户意图、制定分步计划、判断调用哪些工具或技能。

  4. 能力层(工具与技能层)
    助理的“工具箱”,包含操作浏览器、处理文件、调用 API 等功能。可通过 Skill 机制扩展技能。

用户请求
   ↓
接入层(Channel)
   ↓
网关层(Gateway)
   ↓
Agent
   ├── 调用模型
   ├── 调用工具
   ├── 读取记忆
   ↓
运行时执行
   ↓
结果返回

21.请介绍下 OpenClaw 的记忆系统

OpenClaw 通过一系列工作区文件来管理记忆与行为规范:

  1. AGENTS.md
    工作区的核心框架文件,定义了 AI 的工作规范、记忆管理方式、安全红线以及行为准则。它是 AI 判断“该怎么做”的参考依据,确保行为一致且安全可靠。

  2. SOUL.md
    工作区的灵魂设定文件,定义 AI 助手的人格、沟通风格,让 AI 不再机械应答,而是具备个性与判断倾向,交互更真实有温度。

  3. IDENTITY.md
    工作区中的身份设定文件,用于定义 AI 的名字、角色类型等,让 AI 在每次对话时知道自己是谁。

  4. USER.md
    工作区中记录当前用户信息的文件,用于存储用户的名字、称呼、时区、联系方式等基本信息。帮助 AI 在每次对话时快速了解自己是在和谁交流,从而提供更个性化的回应。

  5. TOOLS.md
    工作区中的本地工具配置笔记文件,用于记录执行任务时需要的个性化工具参数和偏好。

  6. HEARTBEAT.md
    工作区中的心跳检查清单,定义每次心跳时 OpenClaw 应该顺便检查哪些事项,让 OpenClaw 能在常规心跳中顺便处理周期性事务,而不必等用户来问。

  7. memory/YYYY-MM-DD.md
    按日期命名的每日记忆文件,用于记录当天对话中的事件与关键信息,未来会被提炼汇总至 MEMORY.md。

  8. MEMORY.md
    用于承载长期记忆的核心文件,持久化存储经过提炼与归纳的关键信息,而非原始、冗余的对话日志。

Hermes Agent

22.介绍下什么是Hermes Agent?

HermesAgent 是什么?

HermesAgent 是由知名 AI 研究机构 Nous Research 推出的开源 AI 智能体,核心理念是“会自我进化的 AI”。官网地址:https://hermes-agent.nousresearch.com

核心特点

  1. 自我进化能力:通过“学习闭环”自动从任务中总结经验。每次执行完任务后,能自动将有效的工作流提炼成“技能(Skill)”并持续优化,真正实现“越用越聪明”。

  2. 持久记忆系统:拥有分层记忆架构,能记住用户习惯与历史经验,在不同会话中都能提供更符合个人习惯的体验。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐