1、什么是人工智能?

人工智能:Artificial Inteligence,通过计算机模拟人类智能的技术。本质是通过算法和数据,让机器人具备类人能力。

预测功能:刷视频,短视频平台知道你喜欢看什么就一直给你推荐;

听说功能:siri,小爱同学,和语音助手说话,他们能听懂你在说什么,也会回答你;

看的功能:美颜相机、拍照识别等;

思考决策:自动驾驶;

AI应用不是人工智能,而是人工智能的实际运用!(招聘软件上指的AI应用大多都是基于LLM大语言模型的应用)

AI算法:计算机模仿人类思考、学习、判断时,遵循的数学公式+执行流程(常见:线性回归、逻辑回归、决策树&随机森林、支持向量机、卷积神经网络)

Agent智能体:能够感知环境输入、自主决策、规划行动路径,并可调用工具或执行操作以达成目的的自主软性实体。Copilot模式:AI作为副驾驶,给出建议,决策权还是在人类手中;如和豆包的一问一答,cursor的Ask模式。Agent模式:完全由AI自主运行,如千问点奶茶活动。

Vibecoding(AI编程):以自然语言驱动的开发模式,开发者通过描述需求或意图(不需要自己写代码),借助大语言模型自动生成、修改代码,从而完成任务。(常用的vibecoding工具:Cursor、WindSurf、Trea;Claud Code、Aider、Cline;Devine、atoms、秒哒、码上飞)

2、人工智能、机器学习、深度学习三者的关系?

人工智能:Artificial Inteligence,通过计算机模拟人类智能的技术。本质是通过算法和数据,让机器人具备类人能力。

机器学习(ML):人工智能的核心实现方式,AI算法中的一类。简单来说就是直接扔给计算机一堆数据和例子,让他自己学习、找规律;而并非像传统方式一样扔给他一堆指令和规定,传统方式下计算机一旦遇到没见到过的规定可能会出错。

深度学习(DL):机器学习的一个重要分支,自动从海量数据中学习特征和规律,从而实现感知、理解、生成。如人脸解锁:采集人脸面部信息、解析并提取面部特征、和机主的人脸进行分析比对。

3、什么是LLM(大语言模型)?

Large Language Model,基于海量文本数据训练,理解和生成人类语言的人工智能模型。

模型 简介
GPT系列 OpenAI开发的顶级多模态大模型
Claude系列 Anthropic开发的AI助手,擅长编程辅助、处理长文档、进行细腻对话
Gemini系列 Google推出的多模态AI模型
GLM 智谱AI推出的大语言模型
通义千问系列 阿里巴巴开发
混元大模型 腾讯推出
云雀大模型/豆包 字节跳动自研
DeepSeek Deepseek推出

4、什么是Prompt?提示词的基本结构?什么是提示词工程?

Prompt提示词:提供给LLM的指令或文本,用于引导模型生成特定输出。

分类:用户提示词,用户直接输入,传达需求;系统提示词,由开发者预设,定义模型角色和行为规范,“假设你是一名客服,用友好语气回答问题”。

提示词基本结构:遵循“CO-STAR”结构化框架(还可以加上角色身份、示例)

编写 含义
C context背景
O objective目标
S style风格
T tone语气
A audience受众
R response响应格式

Prompt Engineering提示词工程:通过设计和优化输入给大语言模型的提示词,让生成的结果更加准确。

5、设计和优化Prompt提示词的技巧?

角色提示

结构化指令引导:用分隔符(【】、“”、{})、列表等清晰地划分指令;

少样本提示:就是给个1-3个正确例子,让模型快速学习规则;

链式思考CoT:让模型分布推理,先思考再给出答案。如:请一步步推理思考过程,展示你的完整思考过程,最后得出结论;

自我一致性:综合不同的推理方式得出结果。如:请从不同角度独立思考问题三次,每次采用不同的表达方式或拆解顺序,展示完整的思考过程,然后比较三个结果,综合选出最后的结果;

优化与迭代策略:从简单的指令开始,根据不足再逐步添加约束条件和背景。

6、什么是Token?在大语言模型中的作用是什么?

Token词元:LLM处理文本时的最小单位,将文本拆解为模型可理解的离散单元,不同模型可能将同一个词分为不同的Token。不是字也不是单词!

分类:Prompt/Input Token(输入Token);Completion/Output Token(输出Token)

在LLM中的作用:计费单位按Token收费;上下文长度限制,超长会截断;决定模型的决策能力

7、什么是Chat Memory会话记忆?作用?

Chat Memory会话记忆:本质上是对话的整体语境与状态。主要包括主题与对话走向、指代关系、用户意图与角色设定、对话历史中的关键信息。

作用:上下文连贯、减少重复输入、个性化体验、多轮任务完成

8、会话记忆和上下文窗口的关系?

Chat Memory会话记忆:本质上是对话的整体语境与状态。主要包括主题与对话走向、指代关系、用户意图与角色设定、对话历史中的关键信息。

Context Window上下文窗口:大语言模型一次最多能处理的输入Token数量。

关系:上下文窗口=背包容量;当前输入+会话记忆+系统提示词=要装进背包的东西

9、什么是多模态?常见的模态有哪些?典型应用场景?

多模态:融合文本、图像、音频、视频,让模型能理解、生成不同的模态数据。

常见模态:文本Text、图像Images、音频Audio、视频Video

典型应用场景智能问答,如医疗场景分析,代码报错截图分析;文生图/图生文,如AI绘画、商品描述生成;语音助手,如智能客服,siri,小爱同学;视频理解,如生成视频摘要

10、什么是RAG?能解决大模型的什么问题?

RAG检索增强生成:Retrieval Augemented Generation,核心是让大模型在回答问题前先查资料,再基于检索到的权威信息生成答案(简单来说就是给AI装外挂hhh)。你可以想象一下,你是一个参加语文考试的学生,传统的LLM就像闭卷考试,只能靠死记硬背,可能把“巴山楚水凄凉地”的后一句错误记成“responsibility”;RAG就像开卷考试,给你发一本语文书,快速定位到古诗词单元(检索),然后再把书上的正确答案写上去(生成)。

解决问题知识过时问题,RAG可以接入最新文档、实时数据,实现“动态知识”;幻觉问题,模型给答案的时候鬼扯瞎编;私有知识问题,模型默认不知道公司的内部数据、私有文档等,RAG可以接入企业知识库,本地文件;上下文窗口限制,RAG检索相关片段而不是全部数据,节省Token;可解释性问题,RAG返回引用来源,支持问题溯源。

11、RAG核心工作流程?

离线准备阶段

(1)数据采集

(2)文档切分

(3)向量化

(4)将向量存储到向量数据库

在线查询阶段

(1)数据查询检索:将用户输入的问题转化为向量,在向量数据库中进行相似度搜索,寻找相似的文档块;

(2)重排序(可选):对检索结果用更强的模型筛选最相关内容

(3)Prompt构建,答案生成

12、什么是工具调用?

Tool Calling工具调用:大模型根据用户请求调用外部工具并获取结果,以此扩展增强自身能力。大模型本身无法与现实世界交互,知识滞后、无实时信息,无法精确计算。

Function Calling函数调用:是工具调用的早期叫法。指LLM请求调用一个开发者预定义的函数,即代码中的一个方法。

13、什么是MCP?与Tool Calling的区别是什么?

Model Context Protocol模型上下文协议,为LLM与外部系统、工具、数据源提供标准化的安全双向通信接口,解决AI集成的【N*M】复杂度问题(N:各种大模型;M:各种系统、工具)。可看做AI领域的USB-C或通用接口。

核心组成部分

MCP Client:大模型系统内的“连接器”,负责按MCP协议发起连接、调用外部服务。结构上依附MCP主机实现。

MCP Server:外部工具的“适配器”,按照MCP协议将工具功能封装成接口。

区别:Tool Calling是LLM调用外部工具的能力,MCP是LLM与工具交互的标准化协议

14、MCP的核心工作流程?

初始化连接(握手建连):MCP主机启动,创建MCP Client并按照配置与MCP Server建立通信连接。(一个主机可以同时连多个MCP Server)

能力发现:Client向Server发起能力查询,Server返回结构化清单;Client将工具信息同步给主机,让LLM明确自身可调用的外部能力边界。

执行决策&调用工具:用户输入问题后,Client自动整合可用工具列表、用户原始问题、对话上下文,以标准化格式封装后发送给LLM,依据上下文及工具元信息进行智能决策。

结果回传&输出:Client吧工具执行结果返回给LLM,生成符合需求的自然语言回答后由Client通过主机应用展示给用户。

15、什么是工作流?与Agent的区别?

工作流workflow:按照预先定义好的步骤,依次执行任务的一种流程化机制。比如,你找导员请病假要先去医院开病历单,然后提交申请表,导员审核之后批准了,流程就结束了。

Agent智能体:能够感知环境输入、自主决策、规划行动路径,并可调用工具或执行操作以达成目的的自主软性实体。

区别:工作流是人预先定义好的,Agent是LLM根据目标动态生成的

16、什么是多Agent模式?什么情况下需要多Agent协作而不是单个Agent解决?

多Agent模式:讲一个任务拆分给多个具备不同功能的Agent,让他们协作完成。

情况:任务复杂到一个Agent完成不了。不会带团队就只能一个人干到死!单个Agent整合问题存在弊端:上下文限制角色冲突与指令污染,一个Agent同时扮演多个角色,提示词可能发生冲突;单点故障与脆弱性,单个Agent在某个步骤出现问题可能导致整个任务链的崩溃。

17、什么是Skill?和Tool Calling的区别?

Skill:模型经过学习或配置后,可重复执行的一类标准化任务能力。

区别:Tool Calling更侧重单一操作的能力,Skill是完成某项具体任务的能力。

18、什么是Manus?什么是OpenManus?

Manus:人工智能智能体产品。向Manus下达一个指令,他会在云端启动一个隔离的虚拟环境(沙箱)然后自主调用其中的浏览器、代码执行器、文件系统等工具,像真人一样规划步骤、执行任务、最终交付成果。

OpenManus:开源的自主规划智能体项目。可以看成Manus的开源实现版本,项目代码完全公开,本地运行。

19、OpenClaw是什么?核心能力有哪些?

OpenClaw:一款开源的本地优先的AI智能体。

核心能力:本地优先;模型无关执行引擎;标准化Skill生态;7*24常驻主动式运行网关;持久化记忆与跨平台互通

20、介绍OpenClaw的核心架构

Channel接入层:简单来说就是让用户能通过不同的渠道发送指令。

Gateway网关层:整个系统的中枢。

Agent:OpenClaw的大脑,理解用户意图,制定分布计划、判断需要用的工具

能力层:工具箱。

用户请求——>Channel——>Gateway——>Agent——>运行时执行——>结果返回

21、Hermes Agent是什么?

以自我进化的AI。

核心特点自我进化能力,每次执行任务后,自动将有效的工作流程提炼成Skill并持续优化;持久化记忆系统,能记住用户的习惯与历史经验,在不同会话中提供更符合个人习惯的体验。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐