QDKT-第4次作业点评&直播答疑

m0_73724698 · 2026-04-10 06:37:45 发布

二、第一节课作业点评：为什么大模型厂商呼吁不要再跟模型说谢谢了？

（一）本节课核心知识点（大模型训练基础）

大模型在微调阶段+RLHF（人类反馈强化学习）阶段的训练语料均为「输入+输出」的问答形式，这让模型形成必答特性——无论用户输入什么，模型都会生成回复。

（三）优秀作答要点

三、第二节课作业点评：用自己的话解释大模型是如何推理的？

（二）本节课核心知识点（大模型推理底层原理）

核心结论：大模型的推理本质是TOKEN逐一生成的迭代过程，具有概率性和单向性，无真正的“思考”能力。

注意力机制：每个TOKEN会计算与前面所有TOKEN的相似度，找到最相关的TOKEN后调整自身向量；该过程依赖矩阵乘法，算力消耗极大，是模型上下文长度受限的核心原因；

① TOKEN切分：将用户输入的文字拆分为模型可识别的TOKEN；

② 向量调用：调用预训练后TOKEN的固定向量表达，无需实时打分；

③ 单向相似度计算：每个TOKEN基于注意力机制，计算与前面所有TOKEN的相似度，调整自身向量（仅往前看，遮罩机制作用）；

④ 逐一生成TOKEN：模型根据概率选择下一个最可能的TOKEN（非100%固定，体现概率性），生成后追加到原上下文；

⑤ 迭代循环：将新生成的TOKEN加入后，重新执行步骤③-④，直到模型停止生成，最终将TOKEN拼接为完整文字。

让模型输出“思考过程”，本质是让模型生成的思考TOKEN成为最终答案的“垫脚石”，通过增加迭代的上下文，提升最终答案的稳定性和准确率；若不让模型输出思考过程，模型无法“分步思考”，只能直接蒙答案，易出错/产生幻觉。

模型生成下一个TOKEN时，会选择概率较高的选项，而非100%固定选项，这导致模型输出具有不可控性——同一个问题多次提问，答案可能略有不同；因此测评模型时，需对同一个问题多次测试，而非一次定结果。

（四）优秀作答要点

核心逻辑：大模型推理是逐TOKEN迭代生成的过程，预训练后TOKEN的向量表达固定，模型通过遮罩机制只能往前看，每个TOKEN计算与前面所有TOKEN的相似度后调整自身，再按概率生成下一个TOKEN，追加到上下文后循环，直到生成结束；

四、第三节课作业点评：大模型为什么没有真正的推理能力？

（一）本节课核心知识点（大模型“伪推理”的本质）

核心结论：大模型的所谓“推理”只是基于语料的概率关系匹配，是“刷题式”的规律复刻，而非人类的因果逻辑判断，本质是生成式的伪推理。

1. 人类推理 vs 大模型“伪推理”的核心差异