QDKT-第5次作业点评&直播答疑
二、零基础必懂核心术语提前看
|
术语 |
零基础解释 |
|
TOKEN |
大模型处理文本的最小单位,可以是一个字、一个词、一个标点,大模型所有计算都基于TOKEN展开 |
|
向量嵌入(embedding) |
把文字、语言等人类能理解的内容,转换成计算机能理解的向量(数字组合) 的过程,是大模型处理文本的基础 |
|
训练/推理 |
训练:大模型学习知识、优化能力的阶段,由厂商完成,需海量数据和算力;推理:大模型用已学知识回答用户问题的阶段,即我们和AI聊天的过程 |
|
KV Cache |
大模型推理时的缓存技术,缓存中间计算结果,避免重复计算,降低算力消耗、提升回答速度 |
|
function call(工具调用) |
让大模型根据用户需求,提取关键参数,供开发者调用外部工具(如查天气、做攻略)的能力,并非大模型自己解决问题 |
|
API调用 |
开发者通过代码/工具,让自己的产品(如APP/网页)连接大模型的方式,是大模型落地实操的核心 |
|
JSON |
一种数据格式,是API调用、工具构造的标准格式,大模型和开发程序之间的信息传递基本都用它 |
三、各节课作业核心解析(按课程顺序)
第1节课:为什么大模型厂商呼吁大家不要跟AI说谢谢
作业主题
分析大模型厂商不建议对AI说“谢谢”等礼貌用语的原因
核心考点
- 大模型训练和推理阶段完全分离的核心逻辑;
- 大模型有问必答的机制特点;
- TOKEN消耗与算力/资源浪费的关系。
正确解答&核心知识点
- 大模型无情感,礼貌用语不会让它“工作更好”,也无法提升回答质量;
- 大模型有有问必答机制,哪怕是无意义的“谢谢”,也会生成回复,每一个回复的TOKEN都会消耗算力/资源,造成浪费;
- 训练和推理完全分离:和AI聊天的推理阶段,用户的任何反馈(谢谢/差评/好评)都不会让大模型进化,也不会影响它后续的回答;
- 用户对话不会被用于训练:一方面厂商有隐私协议,另一方面用户对话数据良莠不齐,处理成本极高,无实际训练价值;用户和AI的对话仅对当前聊天窗口有效,关闭窗口后所有约束/反馈都失效。
补充要求
回答需简洁且全面,例:大模型在微调和RL阶段使用QA对话,有问必答,用户说谢谢时,模型的回复会浪费TOKEN和算力,且模型无情感,礼貌用语无实际意义。
第2节课:大模型的推理过程
作业主题
描述大模型回答问题的核心推理过程
核心考点
- 大模型推理的核心逻辑:next TOKEN prediction(下一个TOKEN预测);
- TOKEN化→向量嵌入→注意力机制→概率选TOKEN的完整流程;
- 大模型逐个生成TOKEN且生成具有概率性的两个关键特点。
学员常见错误(高频)
- 预训练阶段已完成TOKEN的向量赋值;
- TOKEN只找和自己最相关的前文TOKEN;
正确解答&核心知识点
大模型的推理过程本质是逐TOKEN生成的预测过程,核心步骤为:
- TOKEN化:把用户的问题拆分成一个个TOKEN(最小文本单位);
- 向量嵌入:将每个TOKEN转换成计算机能理解的向量,该过程无额外计算,预训练阶段已为TOKEN赋予向量;
- 注意力机制:每个TOKEN只匹配前文最相关的TOKEN,并根据相关TOKEN调整自身的向量(让向量更符合当前语境);
- 概率选TOKEN:通过Softmax算法,计算下一个最可能出现的TOKEN(并非“巨大的概率计算”,算法逻辑简单);
- 循环生成:将生成的新TOKEN加入上下文,重复上述步骤,直到生成停止符,完成回答。
补充核心点
- 每生成一个TOKEN,大模型都需要重新计算所有TOKEN的向量,因此句子越长,算力消耗越高;
- KV Cache技术会缓存中间计算结果,避免重复计算,提升推理速度,这是所有大模型的基础优化手段;
- 大模型本质是智能词汇接龙。
第3节课:为什么大模型无法做到真正意义上的推理?
作业主题
分析大模型不具备人类式“真正推理”能力的原因
核心考点
- 大模型TOKEN链式生成的逻辑缺陷;
- 大模型无全局视角和纠错能力的特点;
- 区分大模型的“概率生成”和人类的“逻辑推理”。
正确解答&核心知识点(零基础版)
大模型无法真正推理的核心原因,是其TOKEN链式生成的底层逻辑,具体为:
- 大模型的每一个TOKEN都基于前序TOKEN生成,且会选择“当前语境下最合理的TOKEN”;
- 无全局视角和纠错能力:如果前序TOKEN出现逻辑偏差,后续TOKEN会基于错误的前序继续生成,一错再错,无法像人类一样发现全局逻辑错误并推翻重来;
- 大模型的“推理”只是概率性的文本续写,并非基于逻辑和因果关系的理解,其回答仅保证“文本上的自洽”,而非“逻辑上的正确”。
优秀回答参考
大模型生成答案是逐个TOKEN续写的过程,每一个TOKEN都基于前序TOKEN生成,若前序TOKEN出现推理偏差,会一错再错;且大模型无全局视角,无法像人类一样发现逻辑错误并推翻现有内容重新推理,因此无法做到真正意义上的推理。
第4节课:大模型防幻觉
作业主题
设计大模型防幻觉的提示词
核心考点
防幻觉提示词的结构化设计思路。
核心要求(产品经理重点)
- 产品经理的输出(作业/文档/提示词)需结构化,分行、分段、有逻辑,方便协作和理解;
- 写文档/提示词时要有“洁癖”,这是AI产品经理的核心壁垒(画原型、提需求均无绝对壁垒,结构化的文档能力是关键);
- 所有输出的核心目的是让他人快速理解,因此必须有主旨、有分层、有逻辑。
第5节课:API调试/调用实操
作业主题
使用工具(Postman/API Fox/Notebook)完成大模型API的实际调用,验证调用效果
核心考点
- API调用的基本流程和工具使用;
- API Key的正确配置规范;
- 大模型原生能力和工具能力的区别;
- JSON格式在API调用中的基础要求。
正确解答&实操知识点(零基础版)
1. API调用的核心逻辑(前后端+数据层)
大模型API调用的本质是产品和大模型的信息交互,分为三层,零基础可简单理解为:
- 前端:用户看到的界面(如输入框、按钮),仅负责输入和展示,无逻辑处理能力;
- 后端:产品的代码逻辑层(如Python/Java/Go),负责接收前端输入、发送API请求、接收大模型回复,是核心的“中转站”;
- 数据层:负责存储用户的对话历史,方便用户回看,相当于电脑的“硬盘”。
2. API Key配置核心规范
- 官方文档中的{api_key}是变量符号,仅作提示,配置时必须删除符号,只粘贴自己的API Key;
- API Key是个人账号的“通行证”,严禁在截图/公共场合泄露,否则可能导致账号被盗、算力被消耗。
3. 大模型能力的核心区别
- 原生能力:大模型自带的能力,如文本生成、翻译、写文案,无联网、实时查询、读取附件等功能;
- 工具能力:开发者为大模型接入外部工具后获得的能力(如联网查天气、读文档),并非大模型本身的能力,课程后续会讲解工具接入。
4. 常用调用工具&注意事项
- Postman/API Fox:可视化工具,零基础易上手,核心是填对请求地址、请求头(API Key)、请求体(问题内容);
- Notebook:内置Python的代码工具,适合有简单代码基础的学员,注意代码格式规范和TOKEN隐藏。
补充实操问题解答
问:为什么我调用大模型生成的笑话和老师的几乎一样,大模型不是随机生成的?
答:大模型的生成并非“完全随机”,受temperature(温度参数) 影响:
- 温度参数0.6属于相对稳定的区间,生成内容会偏规范、相似;
- 降低参数(如0.3)会让生成内容更固定,提高参数(如0.9)会让生成内容更随机;
- 大模型的训练语料中,同类内容(如笑话)的模板有限,因此易生成相似内容。
第6节课:AI工具实操(function call/工具构造)
作业主题
构造2个工具,让大模型根据用户需求选择工具,并按JSON格式输出结果
核心考点
- function call的正确理解(课程核心难点);
- 工具构造的JSON格式规范;
- 工具的名称、参数、描述的设计要求;
- 区分工具的必填参数和可选参数。
正确解答&核心知识点(零基础版)
1. function call的核心理解(必背)
function call的本质是“大模型提参数,开发者做执行”,大模型的角色是“识别需求、提取关键信息”,而非“解决问题”:
- 你构造的“工具”,是告诉大模型“用户问什么问题时,需要提取哪些参数”;
- 大模型仅会按你的设计,输出提取的参数(如查天气时提取“城市、日期”);
- 真正的“查天气”操作,由开发者通过代码调用天气API完成,和大模型无关。
2. 工具构造的3个核心规范(按JSON格式)
构造2个工具是基础要求,每个工具必须包含名称、触发条件、参数三部分,且满足:
- 工具名称:简洁明了,如“query_weather(查天气)”“make_travel_plan(做旅游攻略)”,避免无意义命名;
- 触发条件:明确“用户问什么问题时调用该工具”,如“当用户想要查询天气时,调用该工具”;
- 参数设计:
① 字段名无空格,用下划线连接(如travel_time,而非travel time),字段名要代表参数含义(如用city代表城市,而非language);
② 参数描述仅解释参数作用,如“city:用户想要查询的城市名称”,而非写“给用户查这个城市的天气”;
③ 区分必填参数(如查天气的city)和可选参数(如查天气的“未来几天”)。
3. 优秀作业案例参考(查节假日工具)
- 工具名称:query_holiday
- 触发条件:当用户想要了解公共节假日的放假时间时,调用该工具
- 参数:
① holiday_name(必填):用户想要查询的节假日名称,多个用逗号隔开;
② year(可选):用户想要查询的年份,默认查询当前年。
- 大模型输出:用户问“2026年中秋节和劳动节的放假时间”,大模型按JSON格式提取参数:{"holiday_name":"中秋节,劳动节","year":"2026"}。
四、课程通用核心知识点补充(零基础必掌握)
1. KV Cache的核心作用&上下文工程要点
- KV Cache的核心:缓存大模型推理的中间计算结果,避免重复计算,降低算力消耗、提升回答速度,所有大模型均支持该技术;
- 上下文工程要点(产品经理实操重点):构造多轮对话/系统提示词时,把变化的信息(如时间、用户问题)放在后面,固定的信息(如系统指令)放在前面,方便命中KV Cache,减少算力消耗。
2. JSON格式基础规范(API/工具构造必守)
JSON是大模型实操的标准格式,零基础需掌握3个基础规范:
- 字符串不能直接换行,如需换行,用\n(换行符)表示;
- 字段名无空格、无特殊符号,用下划线连接,命名要贴合含义;
- 避免在JSON中随意加引号/花括号,如需在字符串中使用引号,用****(转义符)转义(如"),否则会导致格式报错。
3. 产品经理的核心能力要求
课程全程面向AI产品经理,强调2个核心能力:
- 原理理解能力:必须理解大模型的底层逻辑(如训练/推理分离、next TOKEN prediction),否则会在产品设计中出现大量问题(如幻觉、算力浪费);
- 结构化表达能力:所有输出(作业/文档/提示词)必须分行、分段、有逻辑,这是产品经理的核心壁垒,也是协作的基础。
五、零基础学员学习建议
- 重点掌握“训练/推理分离”“next TOKEN prediction”两个核心逻辑;
- 实操优先保规范:API调用、工具构造等实操,先保证参数配置、格式规范正确,再尝试个性化设计,避免因基础错误导致实操失败;
- 注重结构化表达:从作业开始,刻意训练自己的结构化写作能力,分行、分段、标重点,养成产品经理的职业习惯;
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)