QDKT-大模型课程1-3节作业点评详解

m0_73724698

72人浏览 · 2026-04-10 06:37:25

m0_73724698 · 2026-04-10 06:37:25 发布

第一节课作业详解

一、作业题目

为什么大模型的厂商们不让大家让AI说“谢谢”这类礼貌用语？

二、核心知识点（零基础必记）

这是本次作业的底层逻辑，零基础学员需先理解再看作答思路：

大模型对所有输入内容都会启动完整的推理响应流程，无“无意义话术识别”能力；

大模型的训练过程和推理过程是完全独立的：模型发布后，用户的任何输入/反馈都不会改变模型参数，仅作为当前对话的上下文提示；

无意义的话术（如谢谢）会让大模型做无价值的推理，消耗算力/计算负载/成本，这是厂商禁止的核心原因。

三、学员作业常见情况分析

（一）正确但思考不足

改进要求：作答时需补充前因后果，比如“说谢谢会让大模型启动完整的推理响应流程，做无价值的计算，从而增加算力消耗和运营成本”。

（二）核心概念

模型发布后仅启动推理过程，用户输入不会改变模型参数，所谓“信息污染”只是污染互联网检索结果，而非模型本身；

推理过程中模型不会接收任何“反馈学习”，用户的“谢谢”仅作为下一轮对话的提示词，不会让模型产生“回答正确”的判断。

（三）优秀作业

这类作答是零基础学员的参考范本，需学习其「结论+推理」的结构：

典型作答1：从大模型原理角度，用户说一句谢谢都会让大模型启动实时推理，随着大模型普及，大量无意义的谢谢会消耗相当的算力，增加厂商的成本；

典型作答2：谢谢这类礼貌用语对模型来说是多余的输入，模型会照样启动完整的响应流程，处理无意义的输入会大大增加计算负载量；

典型作答3：跟大模型说谢谢是无意义的交流，但大模型需要解读并尝试给出答案，这个过程会增加计算负荷。

优秀共性：明确结合大模型推理的底层逻辑，说清“为什么谢谢会导致算力消耗”，有结论有思考。

四、老师额外强调

核心是理解「无意义输入消耗算力」的核心逻辑。

第二节课作业详解

一、作业题目

解释大模型回答问题、完成任务的完整过程。

二、核心知识点（零基础必记+通俗拆解）

这是大模型运行的核心流程，零基础学员需按步骤理解，拒绝记专业术语，用通俗的话表述即可；老师在课程中刻意绕过了Transformer、注意力机制等未讲解的术语，作答时禁止使用。

大模型回答问题的5个核心步骤

TOKEN化：大模型将用户输入的内容，依据内置的TOKEN表“切碎”成一个个最小的语言单位（TOKEN），比如把“方案”拆成一个TOKEN；

向量嵌入：给每个TOKEN赋予维度坐标/向量表达（不是“打分”），这是大模型预训练时形成的固定参数，相当于给每个TOKEN贴“特征标签”；

并行调整向量：所有TOKEN同时向前寻找最相关的TOKEN，调整自身的向量属性，这个过程会多轮重复（对应多层神经网络），且全程是并行计算而非串行；

概率选取下一个TOKEN：多轮调整后，以最后一个TOKEN的最终向量为依据，和TOKEN表中所有TOKEN做相似度比对，得到每个TOKEN的相似度概率，再按预设规则（随机/选高概率）选取下一个TOKEN；

持续续写直至结束：将选取的TOKEN作为新的“最后一个TOKEN”，重复上述过程，直到无法在TOKEN表中找到相似的TOKEN，续写完成并输出结果。

关键补充：大模型的概率性

大模型是概率生成系统，不是“精准匹配系统”：选取下一个TOKEN时不会只选相似度最高的，而是加入随机性，否则输出内容会非常机械、死板（对应技术中的temperature/top p参数，用于增加模型输出的“创意”）。

三、学员作业常见问题分析（零基础重点规避）

（一）乱用未讲解的专业术语

典型作答：提到Transformer架构、注意力机制、特征提取等课程中未讲解的术语；

核心问题：学员本身大概率不理解术语的含义，只是堆砌词汇，属于“信息压缩”，违背课程“用自己的话复述核心”的要求；

老师强调：大厂的“黑话/专业术语”是信息压缩的结果，若无法将术语拆解成通俗的话，就不要使用；尤其是产品经理，写PRD/做调研时禁止使用未拆解的专业术语。

（二）核心概念理解

给TOKEN赋予固定的向量坐标/特征属性，不是“评分”；TOKEN的向量属性是预训练时确定的，推理时仅做调整，而非重新“打分”。

（三）完全臆想（脱离课程内容）

作答必须基于课程讲解的内容，不要加入自己的无依据猜测。

（四）直接用AI代写作业（老师明确不点评）

课程作业的目的是让学员自己理解并表达，而非让AI代劳。

（五）表述不完整/逻辑混乱

无步骤拆解，老师无法判断学员是否理解每个环节的核心，和“只给结论无思考”的问题一致。

四、学员高频疑问解答（零基础必看）

疑问1：为什么TOKEN要并行计算，而不是等第一个TOKEN算完再算第二个？

核心答案：底层算法设计+效率提升，串行计算会大幅降低推理速度，增加训练/推理的时间成本；

延伸：若想深入了解，可查阅论文《Attention Is All You Need》（大模型领域的核心论文）。

疑问2：为什么要把每一轮的调整信息都汇总到最后一个TOKEN？

核心答案：最后一个TOKEN包含了前边所有TOKEN的调整信息，能代表整句话的语义和方向；

通俗类比：玩狼人杀时最后一个发言的人，掌握了全局的信息，对局面的了解最全面，因此用最后一个TOKEN做后续计算。

疑问3：为什么不直接选取相似度最高的TOKEN，要加入随机性？

核心答案：如果只选相似度最高的，模型输出的内容会过于机械、死板，完全符合语法但缺乏灵活性；

关键补充：随机性不能过高（如temperature调至0.1），否则模型会输出天马行空、驴唇不对马嘴的内容，出现“幻觉”。

五、优秀作业参考范本

核心总结：从问题中寻找答案；

步骤拆解：大模型将输入内容数据化（TOKEN化），依据内置TOKEN表切碎成TOKEN；给每个TOKEN赋予向量嵌入（维度坐标），所有TOKEN并行向前调整向量属性，多轮重复后，以最后一个TOKEN的向量为依据，和TOKEN表中所有TOKEN做相似度比对，按概率选取下一个TOKEN并续写，直至无法匹配，输出结果。

优秀共性：按步骤拆解，贴合课程核心，不用专业术语，用通俗的话讲清每个环节。

第三节课作业详解

一、作业题目

为什么AI无法做到真正意义上的推理？

二、核心知识点（零基础必记）

本题目围绕大模型的能力边界展开，核心结论：AI的所谓“推理”只是概率统计的模式匹配/TOKEN预测，并非真正的逻辑因果推理。

人类推理的核心特征

有全局视野，能跳脱当前步骤，从宏观视角看问题的整体逻辑；

能双向推理：可从头开始正向推理，也能从中间/结果倒推，还能反复核对、修正错误；

能发现事物的隐藏关系：从看似无关的信息中找到关联，形成新的结论（即创意/灵感）；

基于逻辑因果和对世界的理解，能应对未知场景，灵活调整推理逻辑。

AI“伪推理”的核心特征

无全局视野，只有“前文信息”：AI只能根据已生成的TOKEN向前推理，无法跳脱当前步骤看整体；

单向流式输出：只能按顺序从头生成TOKEN，无法回退、无法修正错误，一旦生成错误的TOKEN，会在错误的基础上继续推理，“将错就错”；

无隐藏关系发现能力：AI的推理是基于训练语料中的规律，模仿人类的推理模式，无法从无关信息中找到新的关联；

本质是概率预测：AI的推理只是根据前文TOKEN，预测下一个最可能的TOKEN，没有真正的“逻辑因果判断”，仅追求“内容合理”。

关键补充：AI幻觉的成因

AI无法做到真正推理的直接后果就是产生幻觉：当AI从A推理出错误的C，而非正确的B时，为了“自圆其说”，会在C的基础上编造虚假的信息/逻辑，强行完成推理，这就是AI“胡说八道”的核心原因。

三、学员作业常见情况分析

（二）核心概念

生成式大模型没有传统意义上的“知识库”，其知识存储在TOKEN词表和参数矩阵中，并非单独的数据库，推理时是基于向量匹配，而非知识库检索（传统AI才有知识库，生成式AI无）。

（五）不要过度贬低大模型

不要过度贬低大模型，AI的推理能力优于绝大多数普通人类，只是相对于“具备逻辑思辨能力的精英人类”有缺陷；AI能模仿人类的推理模式，在训练语料覆盖的场景中，推理结果是准确且有价值的。

四、优秀作业核心亮点

优秀作业均能贴合课程核心，抓住AI推理的本质缺陷，以下是老师明确标注的优秀作答核心点，零基础学员可直接参考：

指出AI无全局视野：大模型只能从头开始按顺序生成TOKEN，没有对整个问题的完整视角，而人类推理可跳步、可倒推；

指出AI单向输出无回头机制：大模型生成TOKEN后无法修改、无法纠正错误，一旦跑偏就会“将错就错”，而人类推理能反复核对、修正；

指出AI无法发现隐藏关系：推理需要从事物中寻找隐藏的关联，而这种关联依赖逻辑思维，并非训练语料中的文本记录，AI无法做到；

指出AI本质是概率匹配：AI的推理是基于海量数据的统计性模式匹配，看似有逻辑，实则未触及理解的核心，只是根据TOKEN的概率预测生成内容，无真正的因果判断。

五、延伸知识点

1. 大模型的“创意局限性”

AI几乎无法产生真正的创意/幽默，因为创意的本质是发现事物的隐藏关系，而AI的推理是基于训练语料的规律，其“创意”只是概率随机性带来的“偶然匹配”，并非真正的灵感；

2. Deepseek R1的“伪思考”

网传Deepseek R1有“思考能力/推理能力”，实际只是拙劣的模仿：工程师在微调控时给了模型大量“思考过程的语料”，模型只是模仿这些语料的特征，并非真正的思考，其核心价值是让模型构建更多上下文，提升回答质量；

3. 不要滥用“因果”一词

“因果”并非简单的“因为所以”，而是复杂的规律抽象，包含大量的信息，不要随意用“因果关系”堆砌，需结合大模型的技术原理具体分析。

核心强调的通用知识点

训练与推理独立：大模型发布后，训练过程结束，用户的任何输入/反馈都不会改变模型参数，仅作为上下文提示；

TOKEN是大模型的最小单位：大模型的所有操作都是基于TOKEN展开的，包括推理、续写、向量匹配；

大模型是概率生成系统：不是精准匹配系统，输出内容带有随机性，这是为了避免机械，也是AI幻觉的成因之一；

单向输出无回头机制：大模型只能按顺序生成TOKEN，无法回退、无法修正错误，这是AI无法做到真正推理的核心原因；

拒绝信息压缩：若无法将专业术语拆解成通俗的话，就不要使用，尤其是产品经理，需用直白的语言表达核心逻辑。

零基础学员专属学习建议

做作业重“思考过程”：不要只给结论，要补充“前因后果”；

不懂就问，不要硬编：对知识点有疑问时，可在群里讨论，不要强行臆想作答；

拒绝AI代写作业：课程作业的目的是让自己理解并表达；

理解核心而非堆砌术语：入门阶段不要死记硬背专业术语，重点理解大模型的底层逻辑（如TOKEN化、向量嵌入、概率生成），用通俗的话表述即可；

结合业务场景理解知识：课程是“大模型应用转型课”，不是纯理论课，理解知识点的同时，要思考“这个知识点在实际工作中怎么用”（比如知道AI无回头机制，就可以在设计产品时规避AI的错误推理）；

注重表达和论述逻辑：尤其是想做产品经理的学员，要锻炼自己的论述能力，作答时按“步骤/逻辑”拆解，不要东拼西凑，这是写PRD、做调研的基础；

不要过度贬低大模型：理解大模型的能力边界，是为了“在边界处收手”，而非否定其价值，大模型在多数普通场景中的推理/生成能力，远优于普通人类，要学会合理利用。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

基于全球储备结构重构模型：黄金配置权重超越美元至核心层级的多维度解析

AtomGit开源社区

【无标题】

公司最小的信息颗粒是 Token；老板 AI大模型通过 Prompt 听汇报做决策；公司规定所有业务系统必须按 MCP 标准接入；HR 给员工发 Skill 手册；单个 Agent 员工领命干活；遇到大项目就组个多智能体团队；OpenClaw 是统一办公平台，Claude Code 是驻场码农；公司终极目标是让这些数字员工拥有身体，变成具身智能走进现实世界。