AI应用开发(八股)
人工智能
1.什么是人工智能?
人工智能(ArtificialIntelligence,简称:AI): 是指通过计算机系统模拟人类智能的技术。通过这种技术实现人类的认知和思维活动,从而可以完成许多复杂的任务,比如学习,推理决策等。本质就是通过算法和数据,让机器具备类人能力。
刷短视频,短视频平台知道你喜欢看什么,⼀直给你推荐→ 这就是⼈⼯智能在“学习”和“预测” 你的喜好。(⽐如抖⾳、⼩红书等都有这样的能⼒)
跟语⾳助⼿说话,它能听懂你在讲啥,还会回答你→这是⼈⼯智能在“听”和“说”(⽐如: Siri、⼩爱同学)
拍照⾃动识别⼈脸、美颜、翻译⽂字→这是⼈⼯智能在“看”和“理解” (⽐如:各种美颜相 机)
⽤应⽤⽣成⼀段逼真的视频,只要输⼊⽂字就能⾃动⽣成画⾯→这是⼈⼯智能在理解⽂字并创作⽣ 成内容(⽐如Sora、即梦、可灵)
开⻋时的⾃动驾驶 →这是⼈⼯智能在“思考”和“做决策”(⽐如:新能源汽⻋)
AI 应用: 把人工智能的能力,运用到具体业务和实际场景中,以产品或系统的形式落地。豆包、自动驾驶辅助系统等。
AI 算法: AI 算法,就是计算机模仿人类思考、学习、判断时,遵循的数学公式+执行流程,是实现这些能力的具体方法和逻辑。(AI算法=AI的“大脑逻辑”,人工智能要靠AI算法实现)
常见的AI算法:线性回归、逻辑回归、决策树&随机森林、⽀持向量机(SVM)、卷积神经网络等
Agent(智能体): Agent (智能体) 是⼀个能够感知环境输入、自主决策、规划⾏动路径,并可调⽤⼯具或执行操作以 达成⽬标的⾃主性软件实体.
Copilot 模式:AI作为“副驾驶”,在工作中实时提供建议、给出问题答案与参考方案,但最终决策与控制权完全由人类掌握。
Agent与Copilot模式区别:Copilot模式是⼈主导、AI提供建议并由人决定是否执行;Agent模式是 AI自主进行任务规划并调用工具完成执⾏。
Copilot 模式举例:chatGpt普通问答模式、cursor的Ask模式
Agent 模式:cursor的Agent模式、智能客服Agent(帮你订机票、点外卖)
vibecoding(AI编程): Vibe Coding 是⼀种以⾃然语⾔驱动的软件开发⽅式,开发者通过描述需求或意图(⽽⼿写代 码),借助⼤语⾔模型⾃动⽣成、修改代码,从⽽完成开发任务。作为开发者只管验收、反馈、迭代,快速把想法变成可运⾏程序。其实就是氛围编程 。自己只“感受”结果而不深究细节,是一种高层次的、近乎“口述”的编程方式
常⽤的vibecoding⼯具
AI 原⽣IDE(AI增强版编辑器,⽇常开发主⼒):
Cursor:https://cursor.sh
Windsurf:https://windsurf.com
Trae:https://trae.ai
CLI:(不占界⾯,只在终端打字。)
Claude Code(Anthropic):https://claude.ai/code
Aider:https://aider.chat
Cline:https://cline.bot
即时⽣成:(⼀句话⽣成可运⾏项⽬,快速出Demo)
Devin https://devin.ai/
atomshttps://atoms.dev/
秒哒https://www.miaoda.cn/
码上⻜https://www.codeflying.net/
2.人工智能,机器学习,深度学习三者的关系是什么?
人工智能(AI):目标是让机器拥有类似⼈类的智能。(概念参考上⼀题)
机器学习(ML):机器学习(MachineLearning)是⼈⼯智能的核⼼实现⽅式。它通过数据训练模型,让机器自动学习规律,⽽不是依赖⼈⼯编写规则。机器学习的常⻅⽅法包含:线性回归/逻辑回归、决策树&随机森林、⽀持向量机(SVM) 等。
深度学习(DL):是机器学习的⼀个重要分⽀。是⼀种基于多层神经⽹络,让机器⾃动从海量数据中学习特征与规律,从⽽实现感知、理解与⽣成的⾼级机器学习⽅法。是ML的一个子集,因其在图像、语音、自然语言等复杂任务上的惊人效果而几乎成为代名词。但它不是唯一方法,决策树、支持向量机等传统机器学习算法在结构化数据上依然有效。
三者关系:深度学习是机器学习的重要分支,机器学习是人工智能的核⼼实现⽅式。
三者是包含关系:人工智能 > 机器学习 > 深度学习
3.什么是LLM(大语言模型)?
LLM全称LargeLanguageModel,叫大语言模型,是一种基于海量文本数据训练、能理解和生成人类语言的人工智能模型。简单说,它就像一个基于海量文本训练出的统计规律引擎,能续写、对话、回答问题,但并不具备真正的“理解”或“意识”。
1. 知名模型举例
-
GPT-4 / GPT-4o(OpenAI)
支持 ChatGPT 和 Microsoft Copilot,能对话、写代码、分析图像内容等。 -
Claude 3.5 / 3 Opus(Anthropic)
强调安全与长文本理解,常用于文档分析、法律合规咨询。 -
Gemini(Google)
原生支持多模态(文本、图像、视频),集成在 Google Workspace 中辅助写作、总结。 -
文心一言(百度)
中文优化,支持检索增强,用于内容创作、知识问答。 -
通义千问(阿里)
集成在钉钉、夸克,可做会议纪要、文案生成。
2. 应用场景举例
-
编程辅助:用 GitHub Copilot(基于 GPT)自动补全函数或生成单元测试。
-
会议记录:将两小时的音频文字稿输入 Claude,让它生成摘要和待办事项。
-
学术润色:把论文摘要输入 Gemini,要求按 Nature 风格改写。
-
客户服务:用文心一言构建企业智能客服,自动回答产品政策、退换货流程。
Prompt
4.什么是Prompt(提示词)?提示词的基本结构包括哪些部分?什么是提示词工程(Prompt Engineering)?
提示词是用户或系统提供给大语言模型(LLM)的指令或文本,用于引导模型生成特定输出。就是与AI对话的起点——告诉模型“要做什么”或“想要什么答案”。
提示词的两种类型:系统提示词 vs 用户提示词
| 类型 | 定义 | 核心功能 | 示例 |
|---|---|---|---|
| 系统提示词 | 由开发者预设,嵌入系统后端,持续影响所有交互 | 定义模型角色、行为规范、知识边界、安全过滤等 | 预设:“你是⼀名客服,用友好语⽓解答问题” |
| 用户提示词 | 由终端用户直接输入,触发单次任务 | 传达即时需求(如提问、指令) | 用户输入:“查询订单” |
类比:系统提示词如同“操作系统”,持续影响所有交互,可以理解为预先设定好的;用户提示词如同“操作指令”,驱动单次任务执行。
提示词的基本结构(通用要素)
一个完整、高效的提示词通常包含以下部分(可灵活组合):
| 组成要素 | 说明 |
|---|---|
| 角色/身份 | 指定模型扮演的角色 |
| 任务/指令 | 明确要求模型执行的具体动作 |
| 上下文/背景 | 提供必要的背景信息 |
| 输入数据 | 需要模型处理的具体内容(文本、数字等) |
| 输出格式要求 | 规定结果的呈现方式(格式、长度、风格等) |
| 示例(Few-shot) | 给出1-3个输入→输出的范例,帮助模型模仿 |
CO-STAR 结构化框架(一种优秀的提示词设计方法)
CO-STAR 框架将提示词拆解为7个关键维度,便于系统化设计:
| 缩写 | 含义 | 说明 |
|---|---|---|
| C | Context(背景) | 提供足够的背景信息,帮助AI理解任务的上下文和环境 |
| O | Objective(目标) | 明确说明希望AI完成的具体目标或任务 |
| S | Style(风格) | 指定AI生成内容的风格,例如正式、幽默、小红书风格等 |
| T | Tone(语气) | 确定AI生成内容的语调,如礼貌、说服性、激励性等 |
| A | Audience(受众) | 描述目标受众的特征,如年龄、兴趣、职业等 |
| R | Response(响应格式) | 指定AI回应的格式,如表格、段落、列表等,以及回应的具体要求 |
完整的提示词示例(基于 CO-STAR 框架,以西安肉夹馍美食短文为例)
【角色】
你是一名资深美食专栏作家,擅长用文字“让读者流口水”。
【背景】
平台:微信公众号,读者20-35岁,晚上9点,有点饿。
对象:西安肉夹馍(腊汁肉夹白吉饼)。
卖点:馍酥脆、肉软烂、肥不腻、瘦不柴。
【任务】
写一篇约300字的美食短文,要求:
-
开头用一句话抓住注意力。
-
分别描写“馍”和“肉”,各用至少1个比喻。
-
结尾让读者产生“现在就想吃”的冲动。
-
自然融入“酥、脆、软、烂、香”5个关键词。
【输出格式】
标题:不超过15字
正文:分3段(开头/描写/结尾),每段空一行。
【补充约束】
-
语气:热情馋人,像朋友深夜发美食照片;用“你”制造对话感,加拟声词(咔嚓、滋啦、嗯~)。
-
风格:市井烟火气,轻快爽利;句子偏短,口语化(贼香、一口下去、没谁了)。
-
不写制作过程,不写店铺地址。
-
禁用“垂涎欲滴”“回味无穷”“唇齿留香”等陈词滥调。
-
每段至少一个短句(不超过10字)。
【示例(可选)】
输入:xxxx
输出:xxxx
什么是提示词工程(Prompt Engineering)
提示词工程是指通过设计和优化输入给大语言模型的提示词,来引导模型生成更准确、更稳定、更符合预期结果的一种工程方法。
它不仅仅是“写一段话问AI”,而是一种系统性的调试过程,包括:
-
实验不同措辞、结构、角色扮演
-
加入Few-shot示例来提升输出质量
-
分解复杂任务为多步提示(链式提示)
-
控制输出格式(JSON、表格、代码块等)
-
避免模型产生幻觉、偏见或无关回答
随着大模型的发展,提示词工程已成为AI应用开发的重要技能,也是低代码/无代码方式调用模型能力的核心手段。
5.有哪些设计和优化提示词(Prompt)的技巧?
回答话术:提示词设计与优化技巧包括:
基础层面采用角色提示(设定身份约束语气与专业度)、结构化指令(用分隔符或Markdown区分背景/指令/输出)和少样本提示(给1-3个示例让模型学习格式);
进阶推理使用链式思考(CoT)(要求一步步展示推理过程)和自我一致性(多次独立推理后投票选出最一致答案)来提升复杂问题准确率;
优化迭代遵循由浅入深策略(先简单指令,观察输出后逐步添加约束,每次只改一个变量)。
基础提示技巧
| 技巧名称 | 说明 | 示例 |
|---|---|---|
| 角色提示 | 通过设定身份(如“你是一位资深的Python架构师”或“你是一位善解人意的心理咨询师”)来约束模型的语气、专业深度和思维方式 | “你是一名资深财务分析师,请帮我解读这份报表” |
| 结构化指令引导 | 使用特定分隔符(如:"""、【】、<> 或 XML 标签)、列表以及 Markdown 格式等清晰界定指令、背景信息、输入数据和输出要求,防止模型混淆 |
用 【角色】、【任务】、【输出格式】 等标签分隔不同部分 |
| 少样本提示 | 提供 1~3 个正确示例,让模型快速学习格式与规则 其实就是举例子 | 给出一个“输入→输出”的配对示例,再让模型处理新输入 |
进阶推理技巧
1. 链式思考(Chain-of-Thought, CoT)提示
让模型分步推理,先思考再输出答案,大幅提升复杂问题的准确率。
提示词示例:
请一步步推理以下问题,展示你的完整思考过程,最后得出结论:
一件衣服原价是200元,先打8折,再减去满100减20的优惠券,最后还要加上5%的税费。小李用这张优惠券买这件衣服,实际支付多少钱?
2. 自我一致性(Self-Consistency)
传统链式思考只走一条推理路径;自我一致性则探索多条路径,最终聚合为一致答案。它不依赖“一次思考定生死”,而是通过“多次尝试 + 投票机制”来提高准确率。
案例:
问题:小明有24颗糖,他每天吃3颗,中途休息了一天没吃。问他总共吃了几天才吃完?
| 推理路径 | 过程 | 输出 |
|---|---|---|
| 传统思维链(CoT) | 每天吃3颗,24÷3=8天 | 8(错误,忽略了休息) |
| 自我一致性 - 推理1 | 吃糖时间共需8天,加上中间休息1天,实际经过9天 | 答案为9 |
| 自我一致性 - 推理2 | 第1~7天吃完21颗,第8天休息,第9天吃完剩下3颗,共经历9天 | 答案为9 |
| 自我一致性 - 推理3 | 直接计算:8天进食 + 1天休息 = 9天 | 答案为9 |
| 投票汇总 | 多数答案为9,投票决定最终输出 | 9(正确) |
提示词示例(用于自我一致性):
请从不同角度独立思考以下问题三次,每次采用不同的表达方式或拆解顺序,展示完整推理过程。然后比较三个答案,选择最合理且一致的结果作为最终输出。
问题:小明有60张游戏卡牌,他每天卖出5张。第3天结束后,他休息了2天没卖,之后继续每天卖5张。问他一共用了多少天才卖完?
要求:
每次推理必须独立,不能复制前面的内容
最终输出格式为:
→ 第一次推理:...
→ 第二次推理:...
→ 第三次推理:...
→ 综合判断与最终答案:...
Token(词元)
6.什么是Token?Token在大语言模型中的作用是什么?
Token(词元)概念:
Token(词元)是⼤语⾔模型(LLM)处理⽂本时的最⼩语义单位。是将⽂本拆解为 模型可理解的离散单元.(不是字,也不是单词)
Token(词元)通过⼤语⾔模型的分词器将⽂本拆分⽽来,不同模型的分词器不同,同⼀个词在不同模型中可能被拆分成不同的Token。
Token分类:
| PromptToken/InputToken(输⼊Token) | 发给模型的内容:问题、历史对话、上传的⽂ 档、系统提⽰词等。 |
| CompletionToken/OutputToken(输出Token) | 模型⽣成的回答。 |
Token在大语言模型中的作用
计费单位几乎所有商用大模型(GPT、Claude、通义千问、⽂⼼等)都按Token收费:输⼊ Token+输出Token。
上下文长度限制模型有最⼤上下⽂窗⼝(如8k、32k、128k、1MToken),超过上限模型就无法处理,会截断或报错。
决定模型理解能力Token切分越合理,模型越能理解语义;同时Token数量直接影响推理速度、显存占用、成本。
会话记忆
7.什么是会话记忆(Chat Memory)?有什么作用?
会话记忆包括:
1.用户之前说过的话 2.模型之前的回答 3.当前对话的上下⽂状态
在对话系统中,会话记忆指的是模型对历史对话内容的存储与利⽤机制,属于上下⽂理解的核⼼ 能⼒之⼀。
会话记忆的作用
1,上下⽂连贯:能理解“它”“这个”等指代,让对话流畅不脱节。
2,减少重复输⼊:⽆需每次重复背景信息,交互更⾼效。
3,个性化体验:记住用户偏好、历史偏好,提供定制回复。
4,多轮任务完成:逐步收集信息,⽀持复杂任务(如写代码逐步完善、信息咨询)。
8.会话记忆和上下文窗口(Context Window)是什么关系?
会话记忆与上下文窗口的关系可概括为:上下文窗口是容量上限,会话记忆是占用容量的主要内容之一。
-
上下文窗口:模型单次能处理的最大输入 Token 数量(如 8K、128K),相当于一个“背包”的总容量。
-
会话记忆:历史对话记录(用户提问 + 模型回答),需要被放入当前请求的输入中,以便模型“记住”之前聊过什么。
关系公式:当前用户输入 + 会话记忆(历史对话) + 系统提示词 + 其他上下文 ≤ 上下文窗口大小
一旦总 Token 数超出窗口,模型会截断最早的内容(丢失记忆)或直接报错。因此:
-
窗口越大,能保留的会话记忆越长。
-
超出窗口时,需要手动截断或总结历史对话,才能继续会话。
比喻:上下文窗口 = 背包容量;当前输入 + 会话记忆 + 系统提示词 = 要装进背包的所有东西。东西太多就装不下,必须丢掉一部分(丢失记忆)。
多模态
9.什么是多模态?常见的模态有哪些?典型应用场景有哪些?
多模态:是指融合⽂本、图像、⾳频、视频等多种类型信息,让模型能理解、⽣成不同模态数据的 技术。 单模态只能处理⼀种数据类型。
常⻅模态:⽂本(Text)、图像(Image)、⾳频(Audio)、视频(Video)。
典型应⽤场景:
| 任务类型 | 输入 | 输出 | 典型场景 |
|---|---|---|---|
| 智能问答(图+文) | 图片 + 文本问题 | 文本答案 | 医疗影像分析(上传CT图片问“是否有结节?”) |
| 文生图 | 文本描述 | 图片 | AI绘画(生成“一只穿西服的猫”) |
| 图生文 | 图片 | 文本描述 | 商品描述生成(上传商品图,自动写卖点文案) |
| 语音助手 | 语音 | 语音 | 智能客服、车载助手(语音→文字→LLM→语音回复) |
| 视频理解 | 视频 | 文本摘要 / 行为标签 | 视频摘要生成、安防异常行为识别、内容审核 |
RAG
10.什么是RAG(检索增强生成)?它能解决大模型的什么问题?
RAG(Retrieval AugmentedGeneration,检索增强⽣成),是⼀种结合外部知识库检索与⼤模型 ⽣成的技术。核⼼是让⼤模型在回答前先“查资料”(外部知识库),再基于检索到的权威信息⽣成 答案,解决模型知识过时、幻觉、专业知识不⾜三⼤核⼼问题。
RAG就是给ai装上一个大脑让它在回答问题时,先从外部知识库(如⽂档、数据库)中检索相关 ⽚段,再将这些⽚段作为上下⽂,输⼊给模型.这样,AI的回答就基于真实、最新数据,⼤幅减少"幻觉", 同时⽀持动态知识更新。
其实就是假如你去参加历史开卷考试。然后传统的LLM就是闭卷考试,你只能死记硬背。RAG就是开卷考试,给你发一本历史书(RAG的知识库)你先快速翻书, 再根据书⾥的内容组织答案(⽣成),确保答案是真实的
RAG让AI从"背书机器"升级为"会查资料的专家",适合需要⾼准确性的场景
| 问题 | RAG的解决方式 |
|---|---|
| 知识过时 | 接入最新文档、实时数据、内部知识库,实现“动态知识” |
| 幻觉(编造答案) | 基于真实文档回答,提供依据,大幅降低幻觉 |
| 私有知识缺失 | 接入企业知识库、本地文件,实现“企业专属AI” |
| 上下文窗口限制 | 仅检索相关片段而非全量数据,节省Token |
| 可解释性差 | 返回引用来源,支持结果溯源(“白盒化”) |
11.RAG 的核心工作流程是怎样的?
一、离线准备阶段
第一步:数据采集
数据来源包括:文档(PDF/Word/Markdown)、数据库、API、网页。
第二步:文档切分(Chunking)
把长文档拆成小块,以提高检索精度、适配上下文窗口。
第三步:向量化(Embedding)
将每个 chunk 转换为向量。
第四步:存储到向量数据库
存储内容:向量 + 原文 + metadata(元数据)。
常见向量数据库:Milvus、Pinecone 等。
二、在线查询阶段
第一步:数据查询检索
用户输入问题 → 将问题转换为向量 → 在向量数据库中进行相似度搜索(常见算法:余弦相似度、向量距离)→ 寻找最相似的文档块。
第二步(可选):重排序(Re-ranking)
对检索结果进行再次排序(用更强模型筛选最相关内容)。此操作为可选。
第三步:Prompt 构建 & 答案生成
将检索结果和用户问题组合起来,构造成一个完整的 Prompt,放入上下文窗口 → 调用大模型 → 模型生成答案并返回。
其实很简单就是
文档加载
文本分割
向量存储
检索
增强生成
Tool Calling(工具调用)
12.什么是工具调用(Tool Calling)?
Tool Calling(⼯具调⽤)是AI应⽤中的⼀种常⻅技术模式,指⼤语⾔模型(LLM)能够根据⽤⼾ 请求,智能地选择并调⽤外部⼯具(如函数、API、服务等)并获取执⾏结果,以此扩展并增强⾃⾝能力的技术流程。
就是知识滞后;无法精确计算;无法与现实世界交互。所以用Tool Calling去解决
Tool Calling VS Function Calling 函数调⽤(FunctionCalling)是⼯具调⽤(ToolCalling)的早期叫法与核⼼形式,现在⾏业⾥⼀般统⼀称为⼯具调⽤(ToolCalling)。函数调用(FunctionCalling)是指LLM请求调⽤⼀个开发者预定义的函数(Function), 这⾥的"函数"就是你代码中的⼀个⽅法. ToolCalling是⼀个更通⽤、更 ⼴泛的概念,不仅包含FunctionCalling,还涵盖了调⽤其他类型的⼯具.
MCP
13.什么是 MCP?与Tool Calling 的区别是什么?
MCP(ModelContextProtocol,模型上下⽂协议) 由AI公司Anthropic于2024年11⽉推出 的开源标准协议。为⼤语⾔模型(LLM)与外部系统、⼯具和数据源提供标准化的安全双向通信接 ⼝,解决AI集成的「N×M」复杂度问题,常被类⽐为AI领域的「USB-C」或「通⽤接⼝」。
其实就是大模型和外部接口的共同协议,类似TCP协议。
以前⼤模型想要接⼊各类外部系统或⼯具等,每个模型和每个⼯具/系统之间都要单独开发⼀套专属对接逻辑,适配成本极⾼、复⽤性极差。 现在有了MCP,就像所有设备都统⼀⽤使⽤USB-C只要遵循这个标准,就能即插即⽤. N:各种⼤模型(GPT、Claude、DeepSeek、通义千问、⽂⼼⼀⾔) M:各种⼯具/系统(数据库、浏览器、代码IDE、邮箱、ERP、⻜书、企业内部接⼝…)
在MCP协议中核⼼的组成部分是MCPClient和MCPServer、MCP主机(AI应⽤)。
MCPClient是⼤模型系统内的“连接器”,负责按MCP协议发起连接、调⽤外部服务; 其实现可基于MCP官⽅提供的SDK,只需完成协议适配和请求封装,⽆需复杂开发。
MCPServer是外部⼯具的“适配器”,会按照MCP协议将⼯具功能封装成标准接⼝,供Client 调⽤,⼆者配合实现模型与⼯具的即插即⽤。MCPServer⽀持两种获取⽅式,既可以基于MCP官⽅规 范⾃⾏开发,适配⾃⾝个性化需求,也可以直接使⽤现成的服务。
为了⽅便开发者快速找到适配的现成MCPServer,⽆需⾃⾏从零开发,⽬前有多个主流渠道可获取各类MCPServer,
区别:Tool Calling 是 LLM 调用外部工具的能力(一种功能),而 MCP 是实现这种调用的标准化协议(一种规范/接口标准)。
一句话总结:Tool Calling 是“能做什么”,MCP 是“按什么规则做”。
14.MCP 的核心工作流程是什么?
1. 初始化连接(握手建连)
MCP主机启动,创建 MCP Client,并按照配置与 MCP Server 建立通信连接。(一个主机可同时连接多个 MCP Server,每个 Server 独立承载不同的工具与能力)
2. 能力发现(工具/资源列表)
Client 向 Server 发起能力查询,Server 返回结构化清单:名称、描述、参数、权限。Client 将工具信息同步给主机,让 LLM 明确自身可调用的外部能力边界。
3. 执行决策 & 调用工具(LLM驱动)
用户输入问题后,Client 自动整合可用工具列表、用户原始问题与对话上下文,并以标准化格式封装后发送给 LLM。LLM 依据上下文及工具元信息进行智能决策:
-
判断是否需要调用外部工具、选择具体工具并匹配合规入参;
-
若无需调用工具,则直接生成自然语言回复,跳过后续执行环节。
若 LLM 确定调用工具,Client 将结构化的调用请求精准转发至对应 MCP Server;由 Server 承担实际执行职责,完成 API 调用、数据库读写、脚本运行或文件系统操作等任务,执行完毕后,以统一结构化格式将结果回传给 Client。
4. 结果回传 & 输出
Client 把工具执行结果回传给 LLM,模型融合工具执行结果、用户问题与对话上下文,生成符合需求的自然语言回答,再由 Client 通过主机应用展示给用户。
Agent & 工作流
15.什么是工作流(workflow)与Agent区别是什么?
工作流(Workflow)是按照预先定义好的步骤和规则依次执行任务的流程化机制,流程固定、可预期,每一步做什么都是提前设计好的,更像一条“流水线”。
例如:员工提交请假申请 → 直属上级审批 → 人事核对备案 → 流程结束。
Agent是能够感知环境输入、自主决策、规划行动路径,并可调用工具或执行操作以达成目标的自主性软件实体。
两者的区别:工作流是“人预先定义步骤的自动化流程”,而Agent是“大模型(LLM)根据目标动态控制流程走向”。
16.什么是多Agent模式,什么场景下需要使用多Agent协作而不是单个Agent解决?
多Agent模式:将一个复杂任务拆分给多个具备不同职责的Agent,由它们协作完成整体目标的系统。可以理解为:从“一个人干所有事”,变成“一群分工明确的人协作”。
什么场景下需要使用多Agent协作:当任务复杂到“一个Agent无法稳定、清晰地完成”时,就需要多Agent。尽管可采用单个Agent整合并执行复杂任务,但这种超级Agent架构存在明显弊端。以下将对其主要问题展开说明。
上下文限制:一个Agent需要将所有任务的内容、工具描述、历史记录都塞进有限的上下文窗口。这会导致信息过载、成本剧增、推理速度下降。
角色冲突与指令污染:同一个Agent同时扮演多个角色时,系统提示词会发生冲突,导致行为混乱或平庸化。
单点故障与脆弱性:单个Agent一旦在某个步骤推理出错或遇到未知情况,整个任务链可能崩溃。
多Agent模式是指:在一个系统内部,由同一个大模型或框架驱动多个具有不同职责的Agent,它们自动感知、分工、协作完成一个复杂任务。
比如:
一个“写代码Agent”写完代码后,自动触发“测试Agent”去执行测试,测试发现bug再自动交给“修bugAgent”去修正。
整个过程无需人工干预,Agent之间通过程序化的消息或共享记忆协同工作。
skills
17.什么是skill和Tool Calling的区别是什么?
定义
-
Tool Calling:大模型调用外部工具的能力,每个工具对应一个单一操作(如查天气API、数据库查询、发送HTTP请求)。可理解为“手里的工具”。
-
Skill:模型经过学习或配置后,可重复执行的标准化任务能力,通常由多个 Tool 调用组合而成。可理解为“一项完整的技能”。
核心区别
-
Tool(工具) = 单一操作(粒度细)
-
Skill(技能) = 完成某项任务的完整能力(粒度粗),内部可能涉及多个 Tool 的协同调用
举例
-
Tool:查天气API、查机票API、查酒店API、发HTTP请求
-
Skill:“规划旅行”——会用到:查天气 + 查机票 + 查酒店 + 生成行程
常用 Skill 平台
| 平台 | 网址 | 特点 |
|---|---|---|
| ClawHub | https://clawhub.ai/ | OpenClaw 官方 Skill 注册中心,对 OpenClaw 用户友好 |
| Claude Code 官方市场 | https://llmskills.org/ | 对 Claude 用户友好 |
| SkillsMP | https://skillsmp.com | 12万+ GitHub 开源 Skill,适合“淘技能” |
| 腾讯 SkillHub | https://skillhub.cn/ | 腾讯生态友好 |
| 阿里云官方 Skill 平台 | https://skills.aliyun.com/ | 阿里生态友好 |
Manus
18.什么是 Manus?什么是 OpenManus?
Manus
Manus 是一款由原中国团队 Monica 开发的人工智能智能体产品,于 2025 年 3 月 6 日发布。
工作原理:当你向 Manus 下达一个指令,它会在云端启动一个隔离的虚拟环境(沙箱),然后自主调用其中的浏览器、代码执行器、文件系统等工具,像真人一样规划步骤、执行任务,最终交付成果。
OpenManus
OpenManus 是一个开源的自主规划智能体项目,可以理解为对 Manus 的开源复刻/实现版本。
特点:
-
完全开源:项目代码完全公开,任何人都可以查看、修改,甚至参与开发,实现功能定制。
-
本地运行:它利用开发者自己电脑的计算资源来执行任务,并将每一步的“思考过程”都清晰地展示出来。
OpenClaw
19.OpenClaw是什么?它的核心能力有哪些?
OpenClaw(曾用名 Clawdbot、Moltbot,昵称“小龙虾”)是一款开源的、本地优先的 AI 智能体。与传统的聊天机器人不同,它不仅能“说”,还能直接操控计算机完成实际操作。它是一个本地 AI Agent 运行平台,官网地址:https://openclaw.ai/
核心能力
-
本地优先:所有数据和运算都在用户本地设备上进行,而非上传到云端服务器,隐私性更强。
-
模型无关执行引擎:兼容所有主流商用/本地大模型,切换只需改配置无需调整代码,支持混合调度、故障降级,切换便捷。原生支持 OpenAI、Claude、Google Gemini、DeepSeek、千问等商用模型,以及 Ollama 本地部署的 Llama、Qwen、Gemma 等开源模型。
-
标准化 Skill 生态:基于 OpenClaw 统一 Skill 规范,构建可插拔、可版本化、可复用的技能生态。
-
7×24 常驻主动式运行网关:以常驻守护进程为核心,支持崩溃自动拉起、心跳巡检、Cron 定时调度与事件驱动触发,打破传统 AI 工具“被动应答”的局限,实现无人值守的自动化基础设施。
-
持久化记忆与跨平台互通:适配主流 IM/协作平台(QQ、Telegram、飞书、钉钉等),统一消息格式,新增渠道零改动核心逻辑;内置持久化记忆,支持人格设定、跨会话记忆与知识沉淀。
发行版本(部分第三方发行版)
阿里 JVS Claw:云端沙箱运行,提供移动端 App 和语音输入。网址:https://jvsclaw.aliyun.com/
腾讯 WorkBuddy:企业级 AI 工作台,可操作本地文件,联动 QQ、企微、飞书等。网址:https://www.codebuddy.cn/work/
腾讯 QClaw:深度集成微信,支持远程操控电脑,拥有 5000+ 技能。网址:https://qclaw.qq.com/
Kimi Claw:纯云端服务,由 Kimi K2.5 驱动,无需本地部署。网址:https://kimiclaw.com/zh/
智谱 AutoClaw:一键安装包 + 官方调优模型,降低本地部署门槛。网址:https://autoglm.zhipuai.cn/autoclaw/
字节 ArkClaw:火山引擎 SaaS 版,开箱即用。网址:https://www.volcengine.com/product/arkclaw
MiniMax MaxClaw:面向企业级,强调安全稳定。网址:https://agent.minimaxi.com/max-claw
百度 DuClaw:依托百度智能云,零门槛低成本接入。网址:https://cloud.baidu.com/product/duclaw.html
20.请介绍下OpenClaw的核心架构
OpenClaw 采用分层模块化设计,主要由以下四层构成:
-
接入层(Channel)
最外层的接入适配组件,为各类消息平台提供独立插件。核心功能:完成平台私有消息格式与系统内部统一消息结构的双向转换。通过插件化机制实现多渠道解耦,新增接入渠道无需修改核心逻辑,只需扩展对应插件,提升扩展性与可维护性。 -
网关层(Gateway)
整个系统的中枢,统一承接所有外部请求,集中完成鉴权、过滤非法请求后,将合法消息向下游分发。 -
Agent
OpenClaw 的“大脑”,负责理解用户意图、制定分步计划、判断调用哪些工具或技能。 -
能力层(工具与技能层)
助理的“工具箱”,包含操作浏览器、处理文件、调用 API 等功能。可通过 Skill 机制扩展技能。
用户请求
↓
接入层(Channel)
↓
网关层(Gateway)
↓
Agent
├── 调用模型
├── 调用工具
├── 读取记忆
↓
运行时执行
↓
结果返回
21.请介绍下 OpenClaw 的记忆系统
OpenClaw 通过一系列工作区文件来管理记忆与行为规范:
-
AGENTS.md
工作区的核心框架文件,定义了 AI 的工作规范、记忆管理方式、安全红线以及行为准则。它是 AI 判断“该怎么做”的参考依据,确保行为一致且安全可靠。 -
SOUL.md
工作区的灵魂设定文件,定义 AI 助手的人格、沟通风格,让 AI 不再机械应答,而是具备个性与判断倾向,交互更真实有温度。 -
IDENTITY.md
工作区中的身份设定文件,用于定义 AI 的名字、角色类型等,让 AI 在每次对话时知道自己是谁。 -
USER.md
工作区中记录当前用户信息的文件,用于存储用户的名字、称呼、时区、联系方式等基本信息。帮助 AI 在每次对话时快速了解自己是在和谁交流,从而提供更个性化的回应。 -
TOOLS.md
工作区中的本地工具配置笔记文件,用于记录执行任务时需要的个性化工具参数和偏好。 -
HEARTBEAT.md
工作区中的心跳检查清单,定义每次心跳时 OpenClaw 应该顺便检查哪些事项,让 OpenClaw 能在常规心跳中顺便处理周期性事务,而不必等用户来问。 -
memory/YYYY-MM-DD.md
按日期命名的每日记忆文件,用于记录当天对话中的事件与关键信息,未来会被提炼汇总至 MEMORY.md。 -
MEMORY.md
用于承载长期记忆的核心文件,持久化存储经过提炼与归纳的关键信息,而非原始、冗余的对话日志。
Hermes Agent
22.介绍下什么是Hermes Agent?
HermesAgent 是什么?
HermesAgent 是由知名 AI 研究机构 Nous Research 推出的开源 AI 智能体,核心理念是“会自我进化的 AI”。官网地址:https://hermes-agent.nousresearch.com
核心特点:
-
自我进化能力:通过“学习闭环”自动从任务中总结经验。每次执行完任务后,能自动将有效的工作流提炼成“技能(Skill)”并持续优化,真正实现“越用越聪明”。
-
持久记忆系统:拥有分层记忆架构,能记住用户习惯与历史经验,在不同会话中都能提供更符合个人习惯的体验。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)