AI应用开发相关知识
1、什么是人工智能?
人工智能:Artificial Inteligence,通过计算机模拟人类智能的技术。本质是通过算法和数据,让机器人具备类人能力。
预测功能:刷视频,短视频平台知道你喜欢看什么就一直给你推荐;
听说功能:siri,小爱同学,和语音助手说话,他们能听懂你在说什么,也会回答你;
看的功能:美颜相机、拍照识别等;
思考决策:自动驾驶;
AI应用不是人工智能,而是人工智能的实际运用!(招聘软件上指的AI应用大多都是基于LLM大语言模型的应用)
AI算法:计算机模仿人类思考、学习、判断时,遵循的数学公式+执行流程(常见:线性回归、逻辑回归、决策树&随机森林、支持向量机、卷积神经网络)
Agent智能体:能够感知环境输入、自主决策、规划行动路径,并可调用工具或执行操作以达成目的的自主软性实体。Copilot模式:AI作为副驾驶,给出建议,决策权还是在人类手中;如和豆包的一问一答,cursor的Ask模式。Agent模式:完全由AI自主运行,如千问点奶茶活动。
Vibecoding(AI编程):以自然语言驱动的开发模式,开发者通过描述需求或意图(不需要自己写代码),借助大语言模型自动生成、修改代码,从而完成任务。(常用的vibecoding工具:Cursor、WindSurf、Trea;Claud Code、Aider、Cline;Devine、atoms、秒哒、码上飞)
2、人工智能、机器学习、深度学习三者的关系?
人工智能:Artificial Inteligence,通过计算机模拟人类智能的技术。本质是通过算法和数据,让机器人具备类人能力。
机器学习(ML):人工智能的核心实现方式,AI算法中的一类。简单来说就是直接扔给计算机一堆数据和例子,让他自己学习、找规律;而并非像传统方式一样扔给他一堆指令和规定,传统方式下计算机一旦遇到没见到过的规定可能会出错。
深度学习(DL):机器学习的一个重要分支,自动从海量数据中学习特征和规律,从而实现感知、理解、生成。如人脸解锁:采集人脸面部信息、解析并提取面部特征、和机主的人脸进行分析比对。
3、什么是LLM(大语言模型)?
Large Language Model,基于海量文本数据训练,理解和生成人类语言的人工智能模型。
| 模型 | 简介 |
| GPT系列 | OpenAI开发的顶级多模态大模型 |
| Claude系列 | Anthropic开发的AI助手,擅长编程辅助、处理长文档、进行细腻对话 |
| Gemini系列 | Google推出的多模态AI模型 |
| GLM | 智谱AI推出的大语言模型 |
| 通义千问系列 | 阿里巴巴开发 |
| 混元大模型 | 腾讯推出 |
| 云雀大模型/豆包 | 字节跳动自研 |
| DeepSeek | Deepseek推出 |
4、什么是Prompt?提示词的基本结构?什么是提示词工程?
Prompt提示词:提供给LLM的指令或文本,用于引导模型生成特定输出。
分类:用户提示词,用户直接输入,传达需求;系统提示词,由开发者预设,定义模型角色和行为规范,“假设你是一名客服,用友好语气回答问题”。
提示词基本结构:遵循“CO-STAR”结构化框架(还可以加上角色身份、示例)
| 编写 | 含义 |
| C | context背景 |
| O | objective目标 |
| S | style风格 |
| T | tone语气 |
| A | audience受众 |
| R | response响应格式 |
Prompt Engineering提示词工程:通过设计和优化输入给大语言模型的提示词,让生成的结果更加准确。
5、设计和优化Prompt提示词的技巧?
角色提示
结构化指令引导:用分隔符(【】、“”、{})、列表等清晰地划分指令;
少样本提示:就是给个1-3个正确例子,让模型快速学习规则;
链式思考CoT:让模型分布推理,先思考再给出答案。如:请一步步推理思考过程,展示你的完整思考过程,最后得出结论;
自我一致性:综合不同的推理方式得出结果。如:请从不同角度独立思考问题三次,每次采用不同的表达方式或拆解顺序,展示完整的思考过程,然后比较三个结果,综合选出最后的结果;
优化与迭代策略:从简单的指令开始,根据不足再逐步添加约束条件和背景。
6、什么是Token?在大语言模型中的作用是什么?
Token词元:LLM处理文本时的最小单位,将文本拆解为模型可理解的离散单元,不同模型可能将同一个词分为不同的Token。不是字也不是单词!
分类:Prompt/Input Token(输入Token);Completion/Output Token(输出Token)
在LLM中的作用:计费单位按Token收费;上下文长度限制,超长会截断;决定模型的决策能力
7、什么是Chat Memory会话记忆?作用?
Chat Memory会话记忆:本质上是对话的整体语境与状态。主要包括主题与对话走向、指代关系、用户意图与角色设定、对话历史中的关键信息。
作用:上下文连贯、减少重复输入、个性化体验、多轮任务完成
8、会话记忆和上下文窗口的关系?
Chat Memory会话记忆:本质上是对话的整体语境与状态。主要包括主题与对话走向、指代关系、用户意图与角色设定、对话历史中的关键信息。
Context Window上下文窗口:大语言模型一次最多能处理的输入Token数量。
关系:上下文窗口=背包容量;当前输入+会话记忆+系统提示词=要装进背包的东西
9、什么是多模态?常见的模态有哪些?典型应用场景?
多模态:融合文本、图像、音频、视频,让模型能理解、生成不同的模态数据。
常见模态:文本Text、图像Images、音频Audio、视频Video
典型应用场景:智能问答,如医疗场景分析,代码报错截图分析;文生图/图生文,如AI绘画、商品描述生成;语音助手,如智能客服,siri,小爱同学;视频理解,如生成视频摘要
10、什么是RAG?能解决大模型的什么问题?
RAG检索增强生成:Retrieval Augemented Generation,核心是让大模型在回答问题前先查资料,再基于检索到的权威信息生成答案(简单来说就是给AI装外挂hhh)。你可以想象一下,你是一个参加语文考试的学生,传统的LLM就像闭卷考试,只能靠死记硬背,可能把“巴山楚水凄凉地”的后一句错误记成“responsibility”;RAG就像开卷考试,给你发一本语文书,快速定位到古诗词单元(检索),然后再把书上的正确答案写上去(生成)。
解决问题:知识过时问题,RAG可以接入最新文档、实时数据,实现“动态知识”;幻觉问题,模型给答案的时候鬼扯瞎编;私有知识问题,模型默认不知道公司的内部数据、私有文档等,RAG可以接入企业知识库,本地文件;上下文窗口限制,RAG检索相关片段而不是全部数据,节省Token;可解释性问题,RAG返回引用来源,支持问题溯源。
11、RAG核心工作流程?
离线准备阶段:
(1)数据采集
(2)文档切分
(3)向量化
(4)将向量存储到向量数据库
在线查询阶段:
(1)数据查询检索:将用户输入的问题转化为向量,在向量数据库中进行相似度搜索,寻找相似的文档块;
(2)重排序(可选):对检索结果用更强的模型筛选最相关内容
(3)Prompt构建,答案生成
12、什么是工具调用?
Tool Calling工具调用:大模型根据用户请求调用外部工具并获取结果,以此扩展增强自身能力。大模型本身无法与现实世界交互,知识滞后、无实时信息,无法精确计算。
Function Calling函数调用:是工具调用的早期叫法。指LLM请求调用一个开发者预定义的函数,即代码中的一个方法。
13、什么是MCP?与Tool Calling的区别是什么?
Model Context Protocol模型上下文协议,为LLM与外部系统、工具、数据源提供标准化的安全双向通信接口,解决AI集成的【N*M】复杂度问题(N:各种大模型;M:各种系统、工具)。可看做AI领域的USB-C或通用接口。
核心组成部分:
MCP Client:大模型系统内的“连接器”,负责按MCP协议发起连接、调用外部服务。结构上依附MCP主机实现。
MCP Server:外部工具的“适配器”,按照MCP协议将工具功能封装成接口。
区别:Tool Calling是LLM调用外部工具的能力,MCP是LLM与工具交互的标准化协议
14、MCP的核心工作流程?
初始化连接(握手建连):MCP主机启动,创建MCP Client并按照配置与MCP Server建立通信连接。(一个主机可以同时连多个MCP Server)
能力发现:Client向Server发起能力查询,Server返回结构化清单;Client将工具信息同步给主机,让LLM明确自身可调用的外部能力边界。
执行决策&调用工具:用户输入问题后,Client自动整合可用工具列表、用户原始问题、对话上下文,以标准化格式封装后发送给LLM,依据上下文及工具元信息进行智能决策。
结果回传&输出:Client吧工具执行结果返回给LLM,生成符合需求的自然语言回答后由Client通过主机应用展示给用户。
15、什么是工作流?与Agent的区别?
工作流workflow:按照预先定义好的步骤,依次执行任务的一种流程化机制。比如,你找导员请病假要先去医院开病历单,然后提交申请表,导员审核之后批准了,流程就结束了。
Agent智能体:能够感知环境输入、自主决策、规划行动路径,并可调用工具或执行操作以达成目的的自主软性实体。
区别:工作流是人预先定义好的,Agent是LLM根据目标动态生成的
16、什么是多Agent模式?什么情况下需要多Agent协作而不是单个Agent解决?
多Agent模式:讲一个任务拆分给多个具备不同功能的Agent,让他们协作完成。
情况:任务复杂到一个Agent完成不了。不会带团队就只能一个人干到死!单个Agent整合问题存在弊端:上下文限制;角色冲突与指令污染,一个Agent同时扮演多个角色,提示词可能发生冲突;单点故障与脆弱性,单个Agent在某个步骤出现问题可能导致整个任务链的崩溃。
17、什么是Skill?和Tool Calling的区别?
Skill:模型经过学习或配置后,可重复执行的一类标准化任务能力。
区别:Tool Calling更侧重单一操作的能力,Skill是完成某项具体任务的能力。
18、什么是Manus?什么是OpenManus?
Manus:人工智能智能体产品。向Manus下达一个指令,他会在云端启动一个隔离的虚拟环境(沙箱)然后自主调用其中的浏览器、代码执行器、文件系统等工具,像真人一样规划步骤、执行任务、最终交付成果。
OpenManus:开源的自主规划智能体项目。可以看成Manus的开源实现版本,项目代码完全公开,本地运行。
19、OpenClaw是什么?核心能力有哪些?
OpenClaw:一款开源的本地优先的AI智能体。
核心能力:本地优先;模型无关执行引擎;标准化Skill生态;7*24常驻主动式运行网关;持久化记忆与跨平台互通
20、介绍OpenClaw的核心架构
Channel接入层:简单来说就是让用户能通过不同的渠道发送指令。
Gateway网关层:整个系统的中枢。
Agent:OpenClaw的大脑,理解用户意图,制定分布计划、判断需要用的工具
能力层:工具箱。
用户请求——>Channel——>Gateway——>Agent——>运行时执行——>结果返回
21、Hermes Agent是什么?
以自我进化的AI。
核心特点:自我进化能力,每次执行任务后,自动将有效的工作流程提炼成Skill并持续优化;持久化记忆系统,能记住用户的习惯与历史经验,在不同会话中提供更符合个人习惯的体验。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)