QDKT-大模型课程1-3节作业点评详解
第一节课作业详解
一、作业题目
为什么大模型的厂商们不让大家让AI说“谢谢”这类礼貌用语?
二、核心知识点(零基础必记)
这是本次作业的底层逻辑,零基础学员需先理解再看作答思路:
- 大模型对所有输入内容都会启动完整的推理响应流程,无“无意义话术识别”能力;
- 大模型的训练过程和推理过程是完全独立的:模型发布后,用户的任何输入/反馈都不会改变模型参数,仅作为当前对话的上下文提示;
- 无意义的话术(如谢谢)会让大模型做无价值的推理,消耗算力/计算负载/成本,这是厂商禁止的核心原因。
三、学员作业常见情况分析
(一)正确但思考不足
- 改进要求:作答时需补充前因后果,比如“说谢谢会让大模型启动完整的推理响应流程,做无价值的计算,从而增加算力消耗和运营成本”。
(二)核心概念
- 模型发布后仅启动推理过程,用户输入不会改变模型参数,所谓“信息污染”只是污染互联网检索结果,而非模型本身;
- 推理过程中模型不会接收任何“反馈学习”,用户的“谢谢”仅作为下一轮对话的提示词,不会让模型产生“回答正确”的判断。
(三)优秀作业
这类作答是零基础学员的参考范本,需学习其「结论+推理」的结构:
- 典型作答1:从大模型原理角度,用户说一句谢谢都会让大模型启动实时推理,随着大模型普及,大量无意义的谢谢会消耗相当的算力,增加厂商的成本;
- 典型作答2:谢谢这类礼貌用语对模型来说是多余的输入,模型会照样启动完整的响应流程,处理无意义的输入会大大增加计算负载量;
- 典型作答3:跟大模型说谢谢是无意义的交流,但大模型需要解读并尝试给出答案,这个过程会增加计算负荷。
- 优秀共性:明确结合大模型推理的底层逻辑,说清“为什么谢谢会导致算力消耗”,有结论有思考。
四、老师额外强调
核心是理解「无意义输入消耗算力」的核心逻辑。
第二节课作业详解
一、作业题目
解释大模型回答问题、完成任务的完整过程。
二、核心知识点(零基础必记+通俗拆解)
这是大模型运行的核心流程,零基础学员需按步骤理解,拒绝记专业术语,用通俗的话表述即可;老师在课程中刻意绕过了Transformer、注意力机制等未讲解的术语,作答时禁止使用。
大模型回答问题的5个核心步骤
- TOKEN化:大模型将用户输入的内容,依据内置的TOKEN表“切碎”成一个个最小的语言单位(TOKEN),比如把“方案”拆成一个TOKEN;
- 向量嵌入:给每个TOKEN赋予维度坐标/向量表达(不是“打分”),这是大模型预训练时形成的固定参数,相当于给每个TOKEN贴“特征标签”;
- 并行调整向量:所有TOKEN同时向前寻找最相关的TOKEN,调整自身的向量属性,这个过程会多轮重复(对应多层神经网络),且全程是并行计算而非串行;
- 概率选取下一个TOKEN:多轮调整后,以最后一个TOKEN的最终向量为依据,和TOKEN表中所有TOKEN做相似度比对,得到每个TOKEN的相似度概率,再按预设规则(随机/选高概率)选取下一个TOKEN;
- 持续续写直至结束:将选取的TOKEN作为新的“最后一个TOKEN”,重复上述过程,直到无法在TOKEN表中找到相似的TOKEN,续写完成并输出结果。
关键补充:大模型的概率性
大模型是概率生成系统,不是“精准匹配系统”:选取下一个TOKEN时不会只选相似度最高的,而是加入随机性,否则输出内容会非常机械、死板(对应技术中的temperature/top p参数,用于增加模型输出的“创意”)。
三、学员作业常见问题分析(零基础重点规避)
(一)乱用未讲解的专业术语
- 典型作答:提到Transformer架构、注意力机制、特征提取等课程中未讲解的术语;
- 核心问题:学员本身大概率不理解术语的含义,只是堆砌词汇,属于“信息压缩”,违背课程“用自己的话复述核心”的要求;
- 老师强调:大厂的“黑话/专业术语”是信息压缩的结果,若无法将术语拆解成通俗的话,就不要使用;尤其是产品经理,写PRD/做调研时禁止使用未拆解的专业术语。
(二)核心概念理解
- 给TOKEN赋予固定的向量坐标/特征属性,不是“评分”;TOKEN的向量属性是预训练时确定的,推理时仅做调整,而非重新“打分”。
(三)完全臆想(脱离课程内容)
- 作答必须基于课程讲解的内容,不要加入自己的无依据猜测。
(四)直接用AI代写作业(老师明确不点评)
- 课程作业的目的是让学员自己理解并表达,而非让AI代劳。
(五)表述不完整/逻辑混乱
- 无步骤拆解,老师无法判断学员是否理解每个环节的核心,和“只给结论无思考”的问题一致。
四、学员高频疑问解答(零基础必看)
疑问1:为什么TOKEN要并行计算,而不是等第一个TOKEN算完再算第二个?
- 核心答案:底层算法设计+效率提升,串行计算会大幅降低推理速度,增加训练/推理的时间成本;
- 延伸:若想深入了解,可查阅论文《Attention Is All You Need》(大模型领域的核心论文)。
疑问2:为什么要把每一轮的调整信息都汇总到最后一个TOKEN?
- 核心答案:最后一个TOKEN包含了前边所有TOKEN的调整信息,能代表整句话的语义和方向;
- 通俗类比:玩狼人杀时最后一个发言的人,掌握了全局的信息,对局面的了解最全面,因此用最后一个TOKEN做后续计算。
疑问3:为什么不直接选取相似度最高的TOKEN,要加入随机性?
- 核心答案:如果只选相似度最高的,模型输出的内容会过于机械、死板,完全符合语法但缺乏灵活性;
- 关键补充:随机性不能过高(如temperature调至0.1),否则模型会输出天马行空、驴唇不对马嘴的内容,出现“幻觉”。
五、优秀作业参考范本
- 核心总结:从问题中寻找答案;
- 步骤拆解:大模型将输入内容数据化(TOKEN化),依据内置TOKEN表切碎成TOKEN;给每个TOKEN赋予向量嵌入(维度坐标),所有TOKEN并行向前调整向量属性,多轮重复后,以最后一个TOKEN的向量为依据,和TOKEN表中所有TOKEN做相似度比对,按概率选取下一个TOKEN并续写,直至无法匹配,输出结果。
- 优秀共性:按步骤拆解,贴合课程核心,不用专业术语,用通俗的话讲清每个环节。
第三节课作业详解
一、作业题目
为什么AI无法做到真正意义上的推理?
二、核心知识点(零基础必记)
本题目围绕大模型的能力边界展开,核心结论:AI的所谓“推理”只是概率统计的模式匹配/TOKEN预测,并非真正的逻辑因果推理。
人类推理的核心特征
- 有全局视野,能跳脱当前步骤,从宏观视角看问题的整体逻辑;
- 能双向推理:可从头开始正向推理,也能从中间/结果倒推,还能反复核对、修正错误;
- 能发现事物的隐藏关系:从看似无关的信息中找到关联,形成新的结论(即创意/灵感);
- 基于逻辑因果和对世界的理解,能应对未知场景,灵活调整推理逻辑。
AI“伪推理”的核心特征
- 无全局视野,只有“前文信息”:AI只能根据已生成的TOKEN向前推理,无法跳脱当前步骤看整体;
- 单向流式输出:只能按顺序从头生成TOKEN,无法回退、无法修正错误,一旦生成错误的TOKEN,会在错误的基础上继续推理,“将错就错”;
- 无隐藏关系发现能力:AI的推理是基于训练语料中的规律,模仿人类的推理模式,无法从无关信息中找到新的关联;
- 本质是概率预测:AI的推理只是根据前文TOKEN,预测下一个最可能的TOKEN,没有真正的“逻辑因果判断”,仅追求“内容合理”。
关键补充:AI幻觉的成因
AI无法做到真正推理的直接后果就是产生幻觉:当AI从A推理出错误的C,而非正确的B时,为了“自圆其说”,会在C的基础上编造虚假的信息/逻辑,强行完成推理,这就是AI“胡说八道”的核心原因。
三、学员作业常见情况分析
(二)核心概念
- 生成式大模型没有传统意义上的“知识库”,其知识存储在TOKEN词表和参数矩阵中,并非单独的数据库,推理时是基于向量匹配,而非知识库检索(传统AI才有知识库,生成式AI无)。
(五)不要过度贬低大模型
- 不要过度贬低大模型,AI的推理能力优于绝大多数普通人类,只是相对于“具备逻辑思辨能力的精英人类”有缺陷;AI能模仿人类的推理模式,在训练语料覆盖的场景中,推理结果是准确且有价值的。
四、优秀作业核心亮点
优秀作业均能贴合课程核心,抓住AI推理的本质缺陷,以下是老师明确标注的优秀作答核心点,零基础学员可直接参考:
- 指出AI无全局视野:大模型只能从头开始按顺序生成TOKEN,没有对整个问题的完整视角,而人类推理可跳步、可倒推;
- 指出AI单向输出无回头机制:大模型生成TOKEN后无法修改、无法纠正错误,一旦跑偏就会“将错就错”,而人类推理能反复核对、修正;
- 指出AI无法发现隐藏关系:推理需要从事物中寻找隐藏的关联,而这种关联依赖逻辑思维,并非训练语料中的文本记录,AI无法做到;
- 指出AI本质是概率匹配:AI的推理是基于海量数据的统计性模式匹配,看似有逻辑,实则未触及理解的核心,只是根据TOKEN的概率预测生成内容,无真正的因果判断。
五、延伸知识点
1. 大模型的“创意局限性”
AI几乎无法产生真正的创意/幽默,因为创意的本质是发现事物的隐藏关系,而AI的推理是基于训练语料的规律,其“创意”只是概率随机性带来的“偶然匹配”,并非真正的灵感;
2. Deepseek R1的“伪思考”
网传Deepseek R1有“思考能力/推理能力”,实际只是拙劣的模仿:工程师在微调控时给了模型大量“思考过程的语料”,模型只是模仿这些语料的特征,并非真正的思考,其核心价值是让模型构建更多上下文,提升回答质量;
3. 不要滥用“因果”一词
“因果”并非简单的“因为所以”,而是复杂的规律抽象,包含大量的信息,不要随意用“因果关系”堆砌,需结合大模型的技术原理具体分析。
核心强调的通用知识点
- 训练与推理独立:大模型发布后,训练过程结束,用户的任何输入/反馈都不会改变模型参数,仅作为上下文提示;
- TOKEN是大模型的最小单位:大模型的所有操作都是基于TOKEN展开的,包括推理、续写、向量匹配;
- 大模型是概率生成系统:不是精准匹配系统,输出内容带有随机性,这是为了避免机械,也是AI幻觉的成因之一;
- 单向输出无回头机制:大模型只能按顺序生成TOKEN,无法回退、无法修正错误,这是AI无法做到真正推理的核心原因;
- 拒绝信息压缩:若无法将专业术语拆解成通俗的话,就不要使用,尤其是产品经理,需用直白的语言表达核心逻辑。
零基础学员专属学习建议
- 做作业重“思考过程”:不要只给结论,要补充“前因后果”;
- 不懂就问,不要硬编:对知识点有疑问时,可在群里讨论,不要强行臆想作答;
- 拒绝AI代写作业:课程作业的目的是让自己理解并表达;
- 理解核心而非堆砌术语:入门阶段不要死记硬背专业术语,重点理解大模型的底层逻辑(如TOKEN化、向量嵌入、概率生成),用通俗的话表述即可;
- 结合业务场景理解知识:课程是“大模型应用转型课”,不是纯理论课,理解知识点的同时,要思考“这个知识点在实际工作中怎么用”(比如知道AI无回头机制,就可以在设计产品时规避AI的错误推理);
- 注重表达和论述逻辑:尤其是想做产品经理的学员,要锻炼自己的论述能力,作答时按“步骤/逻辑”拆解,不要东拼西凑,这是写PRD、做调研的基础;
- 不要过度贬低大模型:理解大模型的能力边界,是为了“在边界处收手”,而非否定其价值,大模型在多数普通场景中的推理/生成能力,远优于普通人类,要学会合理利用。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)