第2次作业点评&直播答疑
一、课程研讨基础信息
- 关键原则:课程不提倡堆砌专业术语,先理解核心逻辑,再掌握术语
- 核心基础概念:TOKEN、向量是贯穿课程的核心,所有大模型的运作均围绕这两个概念展开
二、第一节课作业核心:模型厂商为何呼吁用户不说“谢谢”?
(一)作业背景
核心易错点:多数零基础学员混淆了大模型「训练」和「推理」的关系,对大模型与人类的交互原理理解有误。
(二)正确核心答案
模型厂商不让说“谢谢”,核心原因是无意义的TOKEN消耗,造成计算资源/算力/电费的浪费,且该行为不产生任何实际价值,具体拆解为3个关键逻辑:
- “谢谢”会被纳入上下文,一起传给模型:大模型不会主动“看”历史对话,是厂商的开发者会把**“谢谢”+所有历史上下文**一次性发给模型,模型必须对这些内容做计算,而非模型自己判断需要结合上下文;
- “谢谢”是无价值TOKEN,只消耗不产出:大模型处理语言的最小单位是TOKEN,“谢谢”会被拆分为TOKEN参与计算,但其本身是社交礼貌用语,没有实际问题/指令价值,模型为其付出的算力、TOKEN成本,最终只能输出“不客气”这类无意义回复,除情绪价值外,无任何实际价值;
- 推理阶段不涉及任何训练/微调:模型训练完成后,对外提供服务的阶段是「推理阶段」,此阶段模型不会再对比训练内容、不会再进行训练/微调,也不会因为用户说“谢谢”产生任何学习/优化,不存在“用谢谢数据优化模型”的可能。
(三)学员高频易错点
|
易错点 |
错误本质 |
零基础通俗纠正 |
|
认为“AI会自主结合上下文判断谢谢的含义” |
把上下文处理的主语归为AI |
是开发者/厂商把上下文+谢谢传给模型,AI只是被动接收计算,无自主判断能力 |
|
认为“模型会对比训练内容,再输出对谢谢的回复” |
混淆训练和推理的关系 |
训练和推理完全独立,推理阶段模型不会再碰训练内容,也不会做对比 |
|
仅回答“浪费资源”,无任何思考和拆解 |
未理解问题核心,答案过于简略 |
作业需要体现对原理的理解,而非只说结论,需说明“浪费什么资源(TOKEN/算力)、为什么浪费(上下文一起传)” |
|
错误绘制“谢谢处理流程图”,逻辑混乱 |
未掌握流程图绘制基础,且混淆模型运作流程 |
产品经理核心基本功是流程图/时序图,需逻辑清晰、步骤明确,避免无意义的层级堆砌 |
|
认为“说谢谢会让模型被投毒/误导模型学习” |
误以为推理阶段模型会学习用户输入 |
当下用户对模型的任何操作,都只触发推理,不会进入训练阶段,模型不会被“投毒”,也不会因聊天产生任何正/负反馈 |
|
认为“谢谢会增加模型训练成本” |
完全混淆训练和推理的场景 |
训练是模型上线前的工作,推理是上线后的服务阶段,谢谢只影响推理阶段的计算成本,与训练无关 |
(四)延伸补充
- 大模型免费使用阶段,厂商的核心目的是抢占市场+获取有价值的用户数据,但“谢谢”这类无意义输入,无法为模型优化提供任何有效数据,反而增加数据处理成本;
- 与其说谢谢,不如继续围绕问题深入提问,让模型的计算资源产生实际价值。
三、第二节课核心内容:大模型推理的底层原理(零基础通俗版)
第二节课的核心是讲解人类给大模型发指令/问题后,模型到底怎么“干活”并输出答案,也是后续学习提示词的核心基础;课前核心前提:模型训练和模型推理是完全独立的两个过程,推理阶段模型不会再进行任何训练、微调,所有操作都是基于TOKEN和向量的数学计算。
(一)核心概念通俗解读(零基础必掌握)
所有概念均抛弃复杂公式,仅保留核心逻辑,理解即可,无需死记定义:
- TOKEN:大模型能处理的最小语言单元,不是简单的“字/词”,一个字/词可能对应1-3个TOKEN;是大模型处理人类语言的“基本颗粒”,人类的所有问题/指令,都会先被拆成TOKEN。
- 向量:把TOKEN转化成的数学坐标(课程中用「二维箭头」举例,实际是多维),让大模型能对语言做数学计算;每个TOKEN都有唯一对应的初始向量,这个初始向量是模型训练阶段的产物,推理阶段直接调用。
- 向量嵌入:把TOKEN转化为向量的过程,这就是语言数据化的过程,二者是同一个事,不是两个独立步骤;简单理解为“查字典”,TOKEN是字典里的字,向量是这个字对应的“数学编号”。
- 自注意力机制:TOKEN之间互相“看”,判断彼此的相关性,并根据相关性调整自己的向量;简单理解为“一群人站成一排,每个人都只看前面的人,和自己最像的人,影响自己的程度最大”。
- 概率性:大模型生成下一个TOKEN时,不是固定答案,而是从词表中找与当前向量最相似的TOKEN,选择概率最高的那个;这也是大模型每次回答可能不一样的核心原因。
- 并行处理:所有TOKEN一起调整向量,不是“一个TOKEN调完,再调下一个”;课程中用「狼人杀天黑请闭眼,天亮一起调整话术」举例,核心是同时计算,提升效率(这也是大模型需要高算力的原因)。
(二)大模型推理的完整流程
课程中用**“5个TOKEN的二维箭头调整”** 做核心举例,以下完全还原该例子,步骤清晰,零基础可直接理解:
核心逻辑:大模型没有“理解”能力,所谓的“回答问题”,本质是把人类语言转成数学向量,通过调整向量找到规律,再把数学结果转回人类语言的过程,全程都是数学计算。
步骤1:TOKEN化+向量嵌入(人类语言→模型能算的数学向量)
把用户的问题/指令,拆分成一个个TOKEN,然后给每个TOKEN匹配上训练阶段预设的初始向量(用箭头表示);比如“我想吃苹果”,先拆成TOKEN,再每个TOKEN对应一个箭头(初始向量),这一步完成后,人类语言就变成了模型能处理的数学形式。
步骤2:多轮并行调整向量(TOKEN互相“看”,找到语言规律)
- 所有TOKEN同时看前面的TOKEN(注意:只往前看,不往后看),判断自己和前面每个TOKEN的相关性(箭头长得越像,相关性越高);
- 每个TOKEN根据相关性高低,调整自己的向量(箭头的方向/角度):和自己相关性高的TOKEN,影响越大,向量调整的幅度也越大;
- 一轮调整完成后,所有TOKEN再重新看一遍前面的TOKEN,再次调整向量,反复多轮后,所有TOKEN的箭头会形成一个统一的趋势,这个趋势就是大模型找到的人类语言的规律;
- 此过程是并行处理,所有TOKEN一起调整,不是串行,这是大模型算力消耗的核心环节。
步骤3:基于最后一个TOKEN的向量,找下一个输出的TOKEN
- 多轮调整后,最后一个TOKEN的向量,会包含前面所有TOKEN的信息(相当于把整句话的“规律”都集中在了最后一个箭头里);
- 大模型拿着这个最后一个TOKEN的向量,去自己的词表(所有TOKEN和对应向量的集合)里,找最相似的向量对应的TOKEN,这个TOKEN就是模型要输出的下一个TOKEN;
- 这里的选择是概率性的:词表中可能有多个相似的向量,模型会选概率最高的那个,这也是大模型回答具有随机性的原因。
步骤4:循环推理,直到生成结束TOKEN
- 把新输出的TOKEN,加入到原来的TOKEN序列中,重新走一遍步骤1-3:再次并行调整所有TOKEN的向量,找到新的规律,生成下一个TOKEN;
- 反复循环,直到模型生成结束TOKEN(模型预设的“回答完成”信号),整个回答过程结束;
- 核心关键点:每生成一个新TOKEN,都要重新调整所有向量,不是在原有调整结果上继续,而是回到初始状态重新计算,确保尊重用户原始的输入意图。
(三)第二节课作业要求
用自己的话讲解“大模型是如何回答问题、完成任务的”,核心考察对推理流程的理解,不要求堆砌专业术语,但必须体现核心逻辑:TOKEN化、向量调整、概率性、上下文影响。
四、正确概念
生成第一个TOKEN前,模型已完成大量向量调整工作;
上下文对下一个TOKEN的影响、生成TOKEN的概率性,这是推理原理的核心;
大模型只是做数学计算,没有真正的理解能力,所有‘理解’都是人类的主观感受;
向量嵌入就是语言数据化的过程,TOKEN化后直接匹配向量,无需额外步骤;
大模型没有“知识库”,只是基于TOKEN和向量的概率预测,所有“知识”都是训练阶段固化在向量中的;
五、零基础学员核心学习要点
这是课程中针对零基础学员的核心学习建议,也是后续学好大模型的基础,比死记原理更重要:
- 先区分“训练”和“推理”,这是入门第一关:二者完全独立,训练是模型上线前的工作,推理是上线后的服务阶段,推理阶段不涉及任何训练/微调;
- TOKEN和向量是核心,吃透这两个概念:大模型的所有运作都是基于TOKEN和向量的数学计算;
- 拒绝堆砌专业术语,先理解核心逻辑:Transformer、logits等术语,对零基础学员而言,先理解背后的逻辑,再记术语,否则只是“被语言绑架”,看似懂了,实际没理解;
- 做作业的目的是暴露问题,不是完成任务:不懂就问,不要糊弄,课程建群的核心目的是交流讨论,而非发通知,零基础学员更要敢于暴露自己的理解漏洞;
- 掌握两个关键,做好提示词的基础:上下文对下一个TOKEN的影响、生成TOKEN的概率性;
- 接受“大模型没有理解能力”这个事实:大模型只是做数学计算的工具,没有真正的理解、思考、学习能力,所有看似“智能”的回答,都是概率预测的结果;
- 重视表达的准确性,避免模糊表述:比如回答问题时,明确主语、步骤,不要说“调整参数”“更新向量”这类模糊的话,准确的表达能反映出真实的理解程度。
六、常见专业术语通俗对照表
本对照表整理了课程中出现的所有专业术语,均为零基础适配版,仅保留核心含义,无需死记复杂定义:
|
专业术语 |
零基础通俗解释 |
|
TOKEN |
大模型能处理的最小语言单元,是模型处理人类语言的“基本颗粒” |
|
向量 |
把TOKEN转化成的数学坐标(箭头),让大模型能做数学计算 |
|
向量嵌入 |
把TOKEN转化为向量的过程,就是人类语言数据化的过程 |
|
自注意力机制 |
TOKEN之间互相“看”,判断相关性,根据相关性调整自己的向量 |
|
推理 |
模型训练完成后,对外提供服务、回答用户问题的阶段,全程是数学计算 |
|
训练 |
模型上线前的工作,核心是让模型学习语言规律,生成TOKEN对应的初始向量 |
|
微调 |
训练阶段的后续工作,针对特定场景优化模型,与推理阶段无关 |
|
并行处理 |
所有TOKEN一起调整向量,同时计算,不是一个接一个算 |
|
词表 |
大模型中所有TOKEN和对应初始向量的集合,相当于模型的“数学字典” |
|
Softmax |
把模型计算的分数转化为概率的过程,零基础可暂不理解,知道和概率有关即可 |
|
logits |
模型计算出的“原始分数”,零基础可暂不理解,知道是概率的前身即可 |
|
TOPK |
模型从概率前K个TOKEN中选一个输出,增加回答的随机性,零基础可暂不掌握 |
|
结束TOKEN |
模型预设的“回答完成”信号,生成该TOKEN后,回答过程结束 |
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)