AI应用开发相关知识

Zhou_zzzzz

168人浏览 · 2026-06-07 12:24:04

Zhou_zzzzz · 2026-06-07 12:24:04 发布

1、什么是人工智能？

人工智能：Artificial Inteligence，通过计算机模拟人类智能的技术。本质是通过算法和数据，让机器人具备类人能力。

预测功能：刷视频，短视频平台知道你喜欢看什么就一直给你推荐；

听说功能：siri，小爱同学，和语音助手说话，他们能听懂你在说什么，也会回答你；

看的功能：美颜相机、拍照识别等；

思考决策：自动驾驶；

AI应用不是人工智能，而是人工智能的实际运用！（招聘软件上指的AI应用大多都是基于LLM大语言模型的应用）

AI算法：计算机模仿人类思考、学习、判断时，遵循的数学公式+执行流程（常见：线性回归、逻辑回归、决策树&随机森林、支持向量机、卷积神经网络）

Agent智能体：能够感知环境输入、自主决策、规划行动路径，并可调用工具或执行操作以达成目的的自主软性实体。Copilot模式：AI作为副驾驶，给出建议，决策权还是在人类手中；如和豆包的一问一答，cursor的Ask模式。Agent模式：完全由AI自主运行，如千问点奶茶活动。

Vibecoding（AI编程）：以自然语言驱动的开发模式，开发者通过描述需求或意图（不需要自己写代码），借助大语言模型自动生成、修改代码，从而完成任务。（常用的vibecoding工具：Cursor、WindSurf、Trea；Claud Code、Aider、Cline；Devine、atoms、秒哒、码上飞）

2、人工智能、机器学习、深度学习三者的关系？

人工智能：Artificial Inteligence，通过计算机模拟人类智能的技术。本质是通过算法和数据，让机器人具备类人能力。

机器学习（ML）：人工智能的核心实现方式，AI算法中的一类。简单来说就是直接扔给计算机一堆数据和例子，让他自己学习、找规律；而并非像传统方式一样扔给他一堆指令和规定，传统方式下计算机一旦遇到没见到过的规定可能会出错。

深度学习（DL）：机器学习的一个重要分支，自动从海量数据中学习特征和规律，从而实现感知、理解、生成。如人脸解锁：采集人脸面部信息、解析并提取面部特征、和机主的人脸进行分析比对。

3、什么是LLM（大语言模型）？

Large Language Model，基于海量文本数据训练，理解和生成人类语言的人工智能模型。

模型	简介
GPT系列	OpenAI开发的顶级多模态大模型
Claude系列	Anthropic开发的AI助手，擅长编程辅助、处理长文档、进行细腻对话
Gemini系列	Google推出的多模态AI模型
GLM	智谱AI推出的大语言模型
通义千问系列	阿里巴巴开发
混元大模型	腾讯推出
云雀大模型/豆包	字节跳动自研
DeepSeek	Deepseek推出

4、什么是Prompt？提示词的基本结构？什么是提示词工程？

Prompt提示词：提供给LLM的指令或文本，用于引导模型生成特定输出。

分类：用户提示词，用户直接输入，传达需求；系统提示词，由开发者预设，定义模型角色和行为规范，“假设你是一名客服，用友好语气回答问题”。

提示词基本结构：遵循“CO-STAR”结构化框架（还可以加上角色身份、示例）

编写	含义
C	context背景
O	objective目标
S	style风格
T	tone语气
A	audience受众
R	response响应格式

Prompt Engineering提示词工程：通过设计和优化输入给大语言模型的提示词，让生成的结果更加准确。

5、设计和优化Prompt提示词的技巧？

角色提示

结构化指令引导：用分隔符（【】、“”、{}）、列表等清晰地划分指令；

少样本提示：就是给个1-3个正确例子，让模型快速学习规则；

链式思考CoT：让模型分布推理，先思考再给出答案。如：请一步步推理思考过程，展示你的完整思考过程，最后得出结论；

自我一致性：综合不同的推理方式得出结果。如：请从不同角度独立思考问题三次，每次采用不同的表达方式或拆解顺序，展示完整的思考过程，然后比较三个结果，综合选出最后的结果；

优化与迭代策略：从简单的指令开始，根据不足再逐步添加约束条件和背景。

6、什么是Token？在大语言模型中的作用是什么？

Token词元：LLM处理文本时的最小单位，将文本拆解为模型可理解的离散单元，不同模型可能将同一个词分为不同的Token。不是字也不是单词！

分类：Prompt/Input Token（输入Token）；Completion/Output Token（输出Token）

在LLM中的作用：计费单位按Token收费；上下文长度限制，超长会截断；决定模型的决策能力

7、什么是Chat Memory会话记忆？作用？

Chat Memory会话记忆：本质上是对话的整体语境与状态。主要包括主题与对话走向、指代关系、用户意图与角色设定、对话历史中的关键信息。

作用：上下文连贯、减少重复输入、个性化体验、多轮任务完成

8、会话记忆和上下文窗口的关系？

Chat Memory会话记忆：本质上是对话的整体语境与状态。主要包括主题与对话走向、指代关系、用户意图与角色设定、对话历史中的关键信息。

Context Window上下文窗口：大语言模型一次最多能处理的输入Token数量。

关系：上下文窗口=背包容量；当前输入+会话记忆+系统提示词=要装进背包的东西

9、什么是多模态？常见的模态有哪些？典型应用场景？

多模态：融合文本、图像、音频、视频，让模型能理解、生成不同的模态数据。

常见模态：文本Text、图像Images、音频Audio、视频Video

典型应用场景：智能问答，如医疗场景分析，代码报错截图分析；文生图/图生文，如AI绘画、商品描述生成；语音助手，如智能客服，siri，小爱同学；视频理解，如生成视频摘要

10、什么是RAG？能解决大模型的什么问题？

RAG检索增强生成：Retrieval Augemented Generation，核心是让大模型在回答问题前先查资料，再基于检索到的权威信息生成答案（简单来说就是给AI装外挂hhh）。你可以想象一下，你是一个参加语文考试的学生，传统的LLM就像闭卷考试，只能靠死记硬背，可能把“巴山楚水凄凉地”的后一句错误记成“responsibility”；RAG就像开卷考试，给你发一本语文书，快速定位到古诗词单元（检索），然后再把书上的正确答案写上去（生成）。

解决问题：知识过时问题，RAG可以接入最新文档、实时数据，实现“动态知识”；幻觉问题，模型给答案的时候鬼扯瞎编；私有知识问题，模型默认不知道公司的内部数据、私有文档等，RAG可以接入企业知识库，本地文件；上下文窗口限制，RAG检索相关片段而不是全部数据，节省Token；可解释性问题，RAG返回引用来源，支持问题溯源。

11、RAG核心工作流程？

离线准备阶段：

（1）数据采集

（2）文档切分

（3）向量化

（4）将向量存储到向量数据库

在线查询阶段：

（1）数据查询检索：将用户输入的问题转化为向量，在向量数据库中进行相似度搜索，寻找相似的文档块；

（2）重排序（可选）：对检索结果用更强的模型筛选最相关内容

（3）Prompt构建，答案生成

12、什么是工具调用？

Tool Calling工具调用：大模型根据用户请求调用外部工具并获取结果，以此扩展增强自身能力。大模型本身无法与现实世界交互，知识滞后、无实时信息，无法精确计算。

Function Calling函数调用：是工具调用的早期叫法。指LLM请求调用一个开发者预定义的函数，即代码中的一个方法。

13、什么是MCP？与Tool Calling的区别是什么？

Model Context Protocol模型上下文协议，为LLM与外部系统、工具、数据源提供标准化的安全双向通信接口，解决AI集成的【N*M】复杂度问题（N：各种大模型；M：各种系统、工具）。可看做AI领域的USB-C或通用接口。

核心组成部分：

MCP Client：大模型系统内的“连接器”，负责按MCP协议发起连接、调用外部服务。结构上依附MCP主机实现。

MCP Server：外部工具的“适配器”，按照MCP协议将工具功能封装成接口。

区别：Tool Calling是LLM调用外部工具的能力，MCP是LLM与工具交互的标准化协议

14、MCP的核心工作流程？

初始化连接（握手建连）：MCP主机启动，创建MCP Client并按照配置与MCP Server建立通信连接。（一个主机可以同时连多个MCP Server）

能力发现：Client向Server发起能力查询，Server返回结构化清单；Client将工具信息同步给主机，让LLM明确自身可调用的外部能力边界。

执行决策&调用工具：用户输入问题后，Client自动整合可用工具列表、用户原始问题、对话上下文，以标准化格式封装后发送给LLM，依据上下文及工具元信息进行智能决策。

结果回传&输出：Client吧工具执行结果返回给LLM，生成符合需求的自然语言回答后由Client通过主机应用展示给用户。

15、什么是工作流？与Agent的区别？

工作流workflow：按照预先定义好的步骤，依次执行任务的一种流程化机制。比如，你找导员请病假要先去医院开病历单，然后提交申请表，导员审核之后批准了，流程就结束了。

Agent智能体：能够感知环境输入、自主决策、规划行动路径，并可调用工具或执行操作以达成目的的自主软性实体。

区别：工作流是人预先定义好的，Agent是LLM根据目标动态生成的

16、什么是多Agent模式？什么情况下需要多Agent协作而不是单个Agent解决？

多Agent模式：讲一个任务拆分给多个具备不同功能的Agent，让他们协作完成。

情况：任务复杂到一个Agent完成不了。不会带团队就只能一个人干到死！单个Agent整合问题存在弊端：上下文限制；角色冲突与指令污染，一个Agent同时扮演多个角色，提示词可能发生冲突；单点故障与脆弱性，单个Agent在某个步骤出现问题可能导致整个任务链的崩溃。

17、什么是Skill？和Tool Calling的区别？

Skill：模型经过学习或配置后，可重复执行的一类标准化任务能力。

区别：Tool Calling更侧重单一操作的能力，Skill是完成某项具体任务的能力。

18、什么是Manus？什么是OpenManus？

Manus：人工智能智能体产品。向Manus下达一个指令，他会在云端启动一个隔离的虚拟环境（沙箱）然后自主调用其中的浏览器、代码执行器、文件系统等工具，像真人一样规划步骤、执行任务、最终交付成果。

OpenManus：开源的自主规划智能体项目。可以看成Manus的开源实现版本，项目代码完全公开，本地运行。

19、OpenClaw是什么？核心能力有哪些？

OpenClaw：一款开源的本地优先的AI智能体。

核心能力：本地优先；模型无关执行引擎；标准化Skill生态；7*24常驻主动式运行网关；持久化记忆与跨平台互通

20、介绍OpenClaw的核心架构

Channel接入层：简单来说就是让用户能通过不同的渠道发送指令。

Gateway网关层：整个系统的中枢。

Agent：OpenClaw的大脑，理解用户意图，制定分布计划、判断需要用的工具

能力层：工具箱。

用户请求——>Channel——>Gateway——>Agent——>运行时执行——>结果返回

21、Hermes Agent是什么？

以自我进化的AI。

核心特点：自我进化能力，每次执行任务后，自动将有效的工作流程提炼成Skill并持续优化；持久化记忆系统，能记住用户的习惯与历史经验，在不同会话中提供更符合个人习惯的体验。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

WalkingLab 组织入驻 AtomGit，释放高校智能体开源科研成果

AtomGit开源社区

拼手速！GLM-5.2免费Token每天10点准点开抢！

AtomGit开源社区

圆满落幕｜智驱迭代・昇腾赋能 AI Agent 行业实践 Meetup 上海站，全栈落地干货一次吃透

AtomGit开源社区

所有评论(0)

查看更多评论

Zhou_zzzzz

@Zhou_zzzzz

已为社区贡献2条内容

AI应用开发相关知识

Zhou_zzzzz

1、什么是人工智能？

2、人工智能、机器学习、深度学习三者的关系？

3、什么是LLM（大语言模型）？

4、什么是Prompt？提示词的基本结构？什么是提示词工程？

5、设计和优化Prompt提示词的技巧？

6、什么是Token？在大语言模型中的作用是什么？

7、什么是Chat Memory会话记忆？作用？

8、会话记忆和上下文窗口的关系？

9、什么是多模态？常见的模态有哪些？典型应用场景？

10、什么是RAG？能解决大模型的什么问题？

11、RAG核心工作流程？

12、什么是工具调用？

13、什么是MCP？与Tool Calling的区别是什么？

14、MCP的核心工作流程？

15、什么是工作流？与Agent的区别？

16、什么是多Agent模式？什么情况下需要多Agent协作而不是单个Agent解决？

17、什么是Skill？和Tool Calling的区别？

18、什么是Manus？什么是OpenManus？

19、OpenClaw是什么？核心能力有哪些？

20、介绍OpenClaw的核心架构

21、Hermes Agent是什么？

所有评论(0)

温馨提示：您尚未绑定手机号

Zhou_zzzzz