QDKT-第5次作业点评&直播答疑

m0_73724698

330人浏览 · 2026-04-11 05:34:04

m0_73724698 · 2026-04-11 05:34:04 发布

二、零基础必懂核心术语提前看

术语	零基础解释
TOKEN	大模型处理文本的最小单位，可以是一个字、一个词、一个标点，大模型所有计算都基于TOKEN展开
向量嵌入（embedding）	把文字、语言等人类能理解的内容，转换成计算机能理解的向量（数字组合）的过程，是大模型处理文本的基础
训练/推理	训练：大模型学习知识、优化能力的阶段，由厂商完成，需海量数据和算力；推理：大模型用已学知识回答用户问题的阶段，即我们和AI聊天的过程
KV Cache	大模型推理时的缓存技术，缓存中间计算结果，避免重复计算，降低算力消耗、提升回答速度
function call（工具调用）	让大模型根据用户需求，提取关键参数，供开发者调用外部工具（如查天气、做攻略）的能力，并非大模型自己解决问题
API调用	开发者通过代码/工具，让自己的产品（如APP/网页）连接大模型的方式，是大模型落地实操的核心
JSON	一种数据格式，是API调用、工具构造的标准格式，大模型和开发程序之间的信息传递基本都用它

三、各节课作业核心解析（按课程顺序）

第1节课：为什么大模型厂商呼吁大家不要跟AI说谢谢

作业主题

分析大模型厂商不建议对AI说“谢谢”等礼貌用语的原因

核心考点

大模型训练和推理阶段完全分离的核心逻辑；

大模型有问必答的机制特点；

TOKEN消耗与算力/资源浪费的关系。

正确解答&核心知识点

大模型无情感，礼貌用语不会让它“工作更好”，也无法提升回答质量；

大模型有有问必答机制，哪怕是无意义的“谢谢”，也会生成回复，每一个回复的TOKEN都会消耗算力/资源，造成浪费；

训练和推理完全分离：和AI聊天的推理阶段，用户的任何反馈（谢谢/差评/好评）都不会让大模型进化，也不会影响它后续的回答；

用户对话不会被用于训练：一方面厂商有隐私协议，另一方面用户对话数据良莠不齐，处理成本极高，无实际训练价值；用户和AI的对话仅对当前聊天窗口有效，关闭窗口后所有约束/反馈都失效。

补充要求

回答需简洁且全面，例：大模型在微调和RL阶段使用QA对话，有问必答，用户说谢谢时，模型的回复会浪费TOKEN和算力，且模型无情感，礼貌用语无实际意义。

第2节课：大模型的推理过程

作业主题

描述大模型回答问题的核心推理过程

核心考点

大模型推理的核心逻辑：next TOKEN prediction（下一个TOKEN预测）；

TOKEN化→向量嵌入→注意力机制→概率选TOKEN的完整流程；

大模型逐个生成TOKEN且生成具有概率性的两个关键特点。

学员常见错误（高频）

预训练阶段已完成TOKEN的向量赋值；

TOKEN只找和自己最相关的前文TOKEN；

正确解答&核心知识点

大模型的推理过程本质是逐TOKEN生成的预测过程，核心步骤为：

TOKEN化：把用户的问题拆分成一个个TOKEN（最小文本单位）；

向量嵌入：将每个TOKEN转换成计算机能理解的向量，该过程无额外计算，预训练阶段已为TOKEN赋予向量；

注意力机制：每个TOKEN只匹配前文最相关的TOKEN，并根据相关TOKEN调整自身的向量（让向量更符合当前语境）；

概率选TOKEN：通过Softmax算法，计算下一个最可能出现的TOKEN（并非“巨大的概率计算”，算法逻辑简单）；

循环生成：将生成的新TOKEN加入上下文，重复上述步骤，直到生成停止符，完成回答。

补充核心点

每生成一个TOKEN，大模型都需要重新计算所有TOKEN的向量，因此句子越长，算力消耗越高；

KV Cache技术会缓存中间计算结果，避免重复计算，提升推理速度，这是所有大模型的基础优化手段；

大模型本质是智能词汇接龙。

第3节课：为什么大模型无法做到真正意义上的推理？

作业主题

分析大模型不具备人类式“真正推理”能力的原因

核心考点

大模型TOKEN链式生成的逻辑缺陷；

大模型无全局视角和纠错能力的特点；

区分大模型的“概率生成”和人类的“逻辑推理”。

正确解答&核心知识点（零基础版）

大模型无法真正推理的核心原因，是其TOKEN链式生成的底层逻辑，具体为：

大模型的每一个TOKEN都基于前序TOKEN生成，且会选择“当前语境下最合理的TOKEN”；

无全局视角和纠错能力：如果前序TOKEN出现逻辑偏差，后续TOKEN会基于错误的前序继续生成，一错再错，无法像人类一样发现全局逻辑错误并推翻重来；

大模型的“推理”只是概率性的文本续写，并非基于逻辑和因果关系的理解，其回答仅保证“文本上的自洽”，而非“逻辑上的正确”。

优秀回答参考

大模型生成答案是逐个TOKEN续写的过程，每一个TOKEN都基于前序TOKEN生成，若前序TOKEN出现推理偏差，会一错再错；且大模型无全局视角，无法像人类一样发现逻辑错误并推翻现有内容重新推理，因此无法做到真正意义上的推理。

第4节课：大模型防幻觉

作业主题

设计大模型防幻觉的提示词

核心考点

防幻觉提示词的结构化设计思路。

核心要求（产品经理重点）

产品经理的输出（作业/文档/提示词）需结构化，分行、分段、有逻辑，方便协作和理解；

写文档/提示词时要有“洁癖”，这是AI产品经理的核心壁垒（画原型、提需求均无绝对壁垒，结构化的文档能力是关键）；

所有输出的核心目的是让他人快速理解，因此必须有主旨、有分层、有逻辑。

第5节课：API调试/调用实操

作业主题

使用工具（Postman/API Fox/Notebook）完成大模型API的实际调用，验证调用效果

核心考点

API调用的基本流程和工具使用；

API Key的正确配置规范；

大模型原生能力和工具能力的区别；

JSON格式在API调用中的基础要求。

正确解答&实操知识点（零基础版）

1. API调用的核心逻辑（前后端+数据层）

大模型API调用的本质是产品和大模型的信息交互，分为三层，零基础可简单理解为：

前端：用户看到的界面（如输入框、按钮），仅负责输入和展示，无逻辑处理能力；

后端：产品的代码逻辑层（如Python/Java/Go），负责接收前端输入、发送API请求、接收大模型回复，是核心的“中转站”；

数据层：负责存储用户的对话历史，方便用户回看，相当于电脑的“硬盘”。

2. API Key配置核心规范

官方文档中的{api_key}是变量符号，仅作提示，配置时必须删除符号，只粘贴自己的API Key；

API Key是个人账号的“通行证”，严禁在截图/公共场合泄露，否则可能导致账号被盗、算力被消耗。

3. 大模型能力的核心区别

原生能力：大模型自带的能力，如文本生成、翻译、写文案，无联网、实时查询、读取附件等功能；

工具能力：开发者为大模型接入外部工具后获得的能力（如联网查天气、读文档），并非大模型本身的能力，课程后续会讲解工具接入。

4. 常用调用工具&注意事项

Postman/API Fox：可视化工具，零基础易上手，核心是填对请求地址、请求头（API Key）、请求体（问题内容）；

Notebook：内置Python的代码工具，适合有简单代码基础的学员，注意代码格式规范和TOKEN隐藏。

补充实操问题解答

问：为什么我调用大模型生成的笑话和老师的几乎一样，大模型不是随机生成的？

答：大模型的生成并非“完全随机”，受temperature（温度参数） 影响：

温度参数0.6属于相对稳定的区间，生成内容会偏规范、相似；

降低参数（如0.3）会让生成内容更固定，提高参数（如0.9）会让生成内容更随机；

大模型的训练语料中，同类内容（如笑话）的模板有限，因此易生成相似内容。

第6节课：AI工具实操（function call/工具构造）

作业主题

构造2个工具，让大模型根据用户需求选择工具，并按JSON格式输出结果

核心考点

function call的正确理解（课程核心难点）；

工具构造的JSON格式规范；

工具的名称、参数、描述的设计要求；

区分工具的必填参数和可选参数。

正确解答&核心知识点（零基础版）

1. function call的核心理解（必背）

function call的本质是“大模型提参数，开发者做执行”，大模型的角色是“识别需求、提取关键信息”，而非“解决问题”：

你构造的“工具”，是告诉大模型“用户问什么问题时，需要提取哪些参数”；

大模型仅会按你的设计，输出提取的参数（如查天气时提取“城市、日期”）；

真正的“查天气”操作，由开发者通过代码调用天气API完成，和大模型无关。

2. 工具构造的3个核心规范（按JSON格式）

构造2个工具是基础要求，每个工具必须包含名称、触发条件、参数三部分，且满足：

工具名称：简洁明了，如“query_weather（查天气）”“make_travel_plan（做旅游攻略）”，避免无意义命名；

触发条件：明确“用户问什么问题时调用该工具”，如“当用户想要查询天气时，调用该工具”；

参数设计：

① 字段名无空格，用下划线连接（如travel_time，而非travel time），字段名要代表参数含义（如用city代表城市，而非language）；

② 参数描述仅解释参数作用，如“city：用户想要查询的城市名称”，而非写“给用户查这个城市的天气”；

③ 区分必填参数（如查天气的city）和可选参数（如查天气的“未来几天”）。

3. 优秀作业案例参考（查节假日工具）

工具名称：query_holiday

触发条件：当用户想要了解公共节假日的放假时间时，调用该工具

参数：

① holiday_name（必填）：用户想要查询的节假日名称，多个用逗号隔开；

② year（可选）：用户想要查询的年份，默认查询当前年。

大模型输出：用户问“2026年中秋节和劳动节的放假时间”，大模型按JSON格式提取参数：{"holiday_name":"中秋节,劳动节","year":"2026"}。

四、课程通用核心知识点补充（零基础必掌握）

1. KV Cache的核心作用&上下文工程要点

KV Cache的核心：缓存大模型推理的中间计算结果，避免重复计算，降低算力消耗、提升回答速度，所有大模型均支持该技术；

上下文工程要点（产品经理实操重点）：构造多轮对话/系统提示词时，把变化的信息（如时间、用户问题）放在后面，固定的信息（如系统指令）放在前面，方便命中KV Cache，减少算力消耗。

2. JSON格式基础规范（API/工具构造必守）

JSON是大模型实操的标准格式，零基础需掌握3个基础规范：

字符串不能直接换行，如需换行，用\n（换行符）表示；

字段名无空格、无特殊符号，用下划线连接，命名要贴合含义；

避免在JSON中随意加引号/花括号，如需在字符串中使用引号，用****（转义符）转义（如"），否则会导致格式报错。

3. 产品经理的核心能力要求

课程全程面向AI产品经理，强调2个核心能力：

原理理解能力：必须理解大模型的底层逻辑（如训练/推理分离、next TOKEN prediction），否则会在产品设计中出现大量问题（如幻觉、算力浪费）；

结构化表达能力：所有输出（作业/文档/提示词）必须分行、分段、有逻辑，这是产品经理的核心壁垒，也是协作的基础。

五、零基础学员学习建议

重点掌握“训练/推理分离”“next TOKEN prediction”两个核心逻辑；

实操优先保规范：API调用、工具构造等实操，先保证参数配置、格式规范正确，再尝试个性化设计，避免因基础错误导致实操失败；

注重结构化表达：从作业开始，刻意训练自己的结构化写作能力，分行、分段、标重点，养成产品经理的职业习惯；

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

计算机毕业设计:Python城市天气预警与生活指数分析系统 Flask框架集成学习可视化和风天气 API 数据分析大数据 AI （建议收藏）✅

AtomGit开源社区

2026届必备的十大降AI率网站推荐榜单

AtomGit开源社区

DXP 市场洞察与 Baklib 数字内容基座白皮书

AtomGit开源社区

所有评论(0)

查看更多评论

m0_73724698

@m0_73724698

已为社区贡献16条内容