AI落地--模型术语解释

MY_JVM

249人浏览 · 2026-06-13 16:26:38

MY_JVM · 2026-06-13 16:26:38 发布

这是我在做甲方实际项目时做的科研做的课题研究遇到的所有的模型名词

术语解释表

本表汇总了课题一至课题九中涉及的所有AI/大模型相关专业术语、评测标准与行业名词，按类别编排。每个术语提供中英文全称、详细定义、课题出处及1-2条生活化类比，便于非技术背景人员理解。

一、模型架构类

Transformer

中文：Transformer 架构
定义：当前主流大语言模型采用的神经网络架构，核心创新是"自注意力机制"——让模型在处理每个词时都能同时关注句子中所有其他词的关系。区别于RNN/LSTM的逐词处理方式，Transformer支持并行计算，从而大幅提升训练效率。
出处：课题1、课题2、课题4、课题6、课题7、课题8
生活类比1：传统RNN像排队结账——每个人只能从前一个人那里传递信息，慢且容易丢失信息；Transformer像小组讨论——所有人同时坐在圆桌旁，每个人都能直接和任何一个人交流，效率高且不易遗漏信息。
生活类比2：就像你读一篇文章时，读到第10句还能回想起第1句的关键信息——Transformer的注意力机制就是在模拟这种全局关联能力。

MoE（Mixture of Experts）

中文：混合专家架构
定义：一种模型架构策略，将模型内部拆分为多个"专家"子网络。每次处理输入时，路由器只激活其中少数几个专家（例如Top-1或Top-2），而非全部。相当于"按需取用"，在保持大容量参数的同时降低实际计算量。
出处：课题1、课题8
生活类比1：大型医院里有很多科室（专家），但你看病时不需要把所有科室都跑一遍——挂号台（路由器）根据你的症状，只帮你挂对应科室。MoE同样如此：8个专家各有所长，但每次只激活1-2个。
生活类比2：一个公司有法务、财务、技术、市场等部门，面对一个技术问题时，只需要技术部参与——这种"按需调配"就是MoE的核心思想。

Self-Attention（自注意力机制）

中文：自注意力机制
定义：Transformer架构的核心组件。让输入序列中的每个词都能计算与序列中所有其他词的相关性权重，从而捕获长距离依赖关系。计算复杂度为O(n^2)，其中n为序列长度。
出处：课题1、课题4、课题6、课题7
生活类比1：在聚会中你想理解"他"指谁，会回顾最近的对话找线索——自注意力就是让模型自动找出句子中每个词和其他词之间的关联强度。
生活类比2：读一段代码时，“这个变量在哪定义的”——你会在上下文中搜索关联，自注意力机制做的就是这种全局关联搜索。

Multi-Head Attention（多头注意力）

中文：多头注意力机制
定义：将自注意力分成多个"头"，每个头使用不同的线性变换矩阵，从不同的语义子空间学习不同类型的关联。最后将所有头的结果拼接起来以获取更丰富的表示。
出处：课题1、课题4、课题8
生活类比1：评价一台手机，你从"摄像头"“续航”“屏幕”"价格"四个角度分别打分再综合——每个注意力头就对应一个评价角度，最终综合所有角度得出完整认识。
生活类比2：听音乐会时，你同时关注旋律、节奏、和声、歌词——多个"注意力头"并行处理，最后整合成完整的音乐体验。

Switch Transformer

中文：Switch Transformer 架构
定义：Google提出的简化MoE架构，采用Top-1路由策略（每次只激活1个专家），降低了路由复杂度，在大规模训练中展现出优异的稀疏激活性能。
出处：课题1
生活类比：食堂有多个打饭窗口，Switch Transformer每次只让你去一个最匹配你口味的窗口——而不是去多个窗口各打一点。

Sparse Attention（稀疏注意力）

中文：稀疏注意力
定义：对标准注意力机制的优化，通过限制每个token只关注局部窗口或关键位置，而非全部token，将计算复杂度从O(n^2)降至O(n×w)，w为窗口大小。
出处：课题1、课题8
生活类比1：你要了解一个城市，不需要和每个市民都聊天——只需要访问几个关键地点（市中心、商圈、景区）即可。稀疏注意力就是让模型只关注最相关的部分。
生活类比2：查字典时你不会逐页翻完，而是跳到目标词附近开始看——这种"局部聚焦+关键跳转"就是稀疏注意力的逻辑。

BERT / TinyBERT

中文：BERT（双向编码器表示）/ 轻量化BERT
定义：BERT（Bidirectional Encoder Representations from Transformers）是Google 2018年提出的预训练语言模型，通过双向上下文理解实现高效语义表示。TinyBERT是其知识蒸馏后的轻量化版本，参数量从110M降至14.5M。
出处：课题1、课题6
生活类比：BERT像一位百科全书式的学者，知识广博但"体量庞大"；TinyBERT是他的得意弟子——只继承了核心知识精华，携带方便但能力充分。

Longformer

中文：Longformer 模型
定义：一种使用滑动窗口注意力+全局注意力的长文本模型，能有效处理几千甚至上万token的长序列，突破了标准Transformer的512 token限制。
出处：课题1
生活类比：普通人一次只能记住几百个字，但Longformer像速记员——能通过标记几个关键位置配合局部信息，同时处理一篇长报告。

二、评估指标类

Accuracy（准确率）

中文：准确率
定义：正确预测的样本数占总样本数的比例。计算公式：Accuracy = (TP+TN) / (TP+TN+FP+FN)。适用于类别均衡的数据集。
出处：课题1-9均有使用
生活类比1：考试100道选择题，答对85道，准确率就是85%。
生活类比2：天气预报说这周7天中预测对了5天——准确率5/7≈71.4%。

Precision（精确率 / 查准率）

中文：精确率
定义：在所有被模型预测为"正类"的样本中，真正是正类的比例。Precision = TP / (TP+FP)。衡量"说对了多少"。
出处：课题1、课题4、课题6、课题7、课题9
生活类比1：交警拦下10辆"超速"的车，结果只有7辆真的超速——精确率70%。
生活类比2：搜索引擎返回100个结果中，有80个是真正相关的——精确率80%。

Recall（召回率 / 查全率）

中文：召回率
定义：在所有真正的正类样本中，被模型正确识别出来的比例。Recall = TP / (TP+FN)。衡量"找全了没有"。
出处：课题1、课题4、课题6、课题9
生活类比1：医院共有100个病人需要进行X光检查异常筛查，AI标记出了80个，另外20个被遗漏——召回率80%。
生活类比2：警察要抓10个通缉犯，最终抓到8个——召回率80%。

F1-Score（F1分数）

中文：F1分数
定义：精确率与召回率的调和平均数。F1 = 2×P×R / (P+R)。当P和R都高时F1才高，能更好地平衡"说对"和"说全"。
出处：课题1-9均有使用
生活类比1：既要保证推荐的菜能用户喜欢（精确率），又要尽量不遗漏用户可能喜欢的菜（召回率）——F1就是两者的综合评分。
生活类比2：招聘时既要保证招来的人都合格（精确率），又要尽量不错过优秀人才（召回率）——F1让你在两者之间找到最优平衡点。

Macro-F1（宏平均F1）

中文：宏平均F1分数
定义：先分别计算每个类别的F1分数，再取算术平均。不考虑类别样本数量差异，每个类别权重相同。适合关注小类别表现的场景。
出处：课题1、课题6
生活类比：一个学校有重点班（100人）和普通班（20人），宏平均不看人数——每个班的平均分各算各的再取平均，保证小班的声音不被湮没。

ROUGE（Recall-Oriented Understudy for Gisting Evaluation）

中文：ROUGE（基于召回率的摘要评估指标）
定义：文本摘要任务的核心评估指标族，通过计算生成摘要与参考摘要之间的n-gram重叠来评估质量。主要包括：
- ROUGE-1：单字/单词重叠率，衡量信息覆盖度
- ROUGE-2：双字/双词重叠率，衡量局部流畅度
- ROUGE-L：最长公共子序列（Longest Common Subsequence），衡量句子结构相似度
出处：课题1、课题4、课题5、课题6
生活类比1：老师让你用自己话总结一篇文章，ROUGE就是看你用了多少个原文的关键词——用的越多越接近参考答案，但不一定代表你真正理解了。
生活类比2：像考试中的"要点覆盖评分"——答对的关键信息点越多得分越高，ROUGE-1检查信息点，ROUGE-2检查短语搭配，ROUGE-L检查句子骨架。

BLEU（Bilingual Evaluation Understudy）

中文：BLEU（双语评估替补指标）
定义：机器翻译任务的核心评估指标。通过计算候选译文与参考译文之间n-gram的精确匹配率，结合简短惩罚因子来评分。分数范围0-1（或0-100），越高越好。
出处：课题2、课题4、课题7
生活类比1：把中文"你好"翻译成英文，BLEU看你翻的"Hello"和标准答案"Hello"中的词/短语重叠了多少。如果翻成"Hi there"，重叠度低，BLEU分数就低。
生活类比2：改作文时老师拿参考答案对照——不仅看用词是否一致，还看句子长度是否相当。BLEU包含一个长度惩罚：如果翻译得太短，即使每个词都对也会扣分。

BERTScore

中文：BERTScore（基于BERT的语义相似度评分）
定义：利用BERT等预训练模型的上下文嵌入向量计算生成文本与参考文本之间的语义相似度。相比ROUGE/BLEU只看字面重叠，BERTScore能识别"同意不同词"的语义等价。
出处：课题1、课题4
生活类比1：ROUGE看的是你和标准答案用了几个相同的词，BERTScore看的是"你表达的意思是否一样"——"我得走了"和"我该告辞了"字面不同，但语义相同，BERTScore就能识别出来。
生活类比2：写作文时，两个同学表达"夏天很热"，一个写"酷暑难耐"一个写"炎热无比"——字面完全不同的词，但老师知道他们在说同一件事。BERTScore就像这位有理解力的老师。

Hit Rate（命中率 / 检索命中率）

中文：命中率
定义：信息检索指标，指Top-K检索结果中至少包含一个相关文档的查询比例。Hit Rate@5=85%意味着100个查询中有85个在前5个结果中找到了正确答案。
出处：课题4
生活类比1：在淘宝搜索"蓝牙耳机"，前10个结果中有你想要的——就算"命中"了；如果搜10次有8次能在前10个结果中找到目标，命中率就是80%。
生活类比2：图书馆查书，如果系统推荐的前5本书中能找到你想要的那本，这次查询就"命中"了。

MRR（Mean Reciprocal Rank）

中文：平均倒数排名
定义：检索排序质量指标。对每个查询，取第一个正确答案排名的倒数，再对所有查询求平均。第一个正确答案排在第1位得1分，第2位得0.5分，第3位得0.33分，以此类推。
出处：课题4
生活类比：在搜索结果中找目标网页——如果每次都在第1位找到（MRR=1.0）体验最好，在第10位才找到（MRR=0.1）体验就很差了。MRR衡量"答案离你有多近"。

NDCG（Normalized Discounted Cumulative Gain）

中文：归一化折损累计增益
定义：考虑排序位置和相关度的检索质量指标。核心思想：排在前面的相关文档贡献更大的分数，相关度越高的文档分数越高。归一化后范围为0-1。
出处：课题4
生活类比：搜索引擎把最相关的网页排在第1位最有用——NDCG就是给排在前面的高相关结果高分，排在后面或低相关的结果低分，完美排序得1.0分。

Faithfulness（忠实度）

中文：忠实度
定义：衡量RAG系统生成回答是否完全基于检索到的知识内容，而非模型自身预训练知识的指标。高忠实度意味着回答中每个陈述都能在检索文献中找到依据。
出处：课题4
生活类比1：考试时要求"根据课文内容回答"，你如果把我自己的知识编进来就是"不忠实"，严格引用课文原文才算"忠实"。
生活类比2：记者写新闻时必须"忠实"于采访录音——如果加上自己的推测就是失实报道。Faithfulness检测的就是"你有没有在引用的材料之外编造内容"。

Groundedness（基于性 / 有据性）

中文：基于性
定义：回答是否有检索到的文档作为证据支撑。与Faithfulness类似，但更强调"引经据典"——每个结论都应有文档来源。
出处：课题4
生活类比：写论文时，每个论点都要有参考文献支撑——“Groundedness"就是检查你的结论是否"有据可查”。

Answer Relevance（答案相关性）

中文：答案相关性
定义：生成的回答与用户问题的相关程度，衡量回答是否切题、是否回答了用户真正想问的问题。
出处：课题4
生活类比：问"今天天气怎么样"回答"今天气温28度"是相关的；回答"明天可能会下雨"就部分偏离了问题。

Task Completion Rate（任务完成率 / TCR）

中文：任务完成率
定义：Agent系统评估指标，指智能体在给定任务中成功完成全部要求的比例。区别于简单的准确率——包含对任务完成完整性的判断。
出处：课题5
生活类比1：外卖配送不仅仅是送到就算完成——食物完好、准时、态度好都算"完成任务"。TCR衡量的是"整体交付质量"。
生活类比2：交代助理做一份报告，不仅要求内容正确，还要求格式规范、按时交付——全部达到才算"任务完成"。

Execution Accuracy（EX / 执行准确率）

中文：执行准确率
定义：NL2SQL评估指标，指生成的SQL语句在数据库上执行后返回的结果与标准SQL执行结果完全一致的比例。只有结果集完全匹配才算正确。
出处：课题7
生活类比1：做数学题，只写算式不够，最终计算结果对不对才是关键——Execution Accuracy就是看你的"最终答案"是否正确。
生活类比2：点菜时你说"来一份不会辣的菜"，服务员理解成"宫保鸡丁"——虽然SQL语法没问题，但结果（辣菜）不对就是执行失败。

OCS（Overall Controllability Score / 综合可控性评分）

中文：综合可控性评分
定义：课题5中设计的加权评估指标，综合格式合规率、边界遵守率、安全约束遵循率和指令遵循率，全面衡量Agent在业务场景中的可控程度。
出处：课题5
生活类比：评价一个司机的"可控性"：是否遵守交规（格式）、是否在限定区域内行驶（边界）、是否安全驾驶（安全）、是否按导航走（指令）——综合打分就是OCS。

MAPE（Mean Absolute Percentage Error / 平均绝对百分比误差）

中文：平均绝对百分比误差
定义：预测值与实际值之间百分比误差的均值。常用于时序预测评估。MAPE=10%意味着平均预测偏差为10%。优势是可跨量纲比较。
出处：课题9
生活类比1：你预测股市上涨100点结果涨了120点——误差20点，百分比误差20%。MAPE就是把多次预测的百分比误差取平均。
生活类比2：天气预报说今天30度实际32度——误差6.7%。一个月30天取平均值就是MAPE，越小越好。

Prediction Accuracy（预测准确率/异常检测准确率）

中文：异常检测准确率
定义：在时序数据异常检测场景中，正确识别异常点和正常点的比例。考虑到异常检测中正负样本严重不均衡，通常结合精确率和召回率综合评估。
出处：课题9
生活类比：烟雾报警器不仅要检测到真正的火灾（召回率），还不能把厨房烧菜误报为火灾（精确率）——两者的平衡就是异常检测准确率的核心。

三、训练与微调技术类

LoRA（Low-Rank Adaptation）

中文：低秩适配
定义：一种参数高效微调方法。其核心思想是：模型参数的更新量通常具有低秩特性（即存在大量冗余）。LoRA在原权重旁边添加两个小矩阵（A和B）的乘积来近似更新，训练时只更新这两个小矩阵，原始权重冻结不动。
出处：课题2、课题4、课题7、课题8、课题9
生活类比1：你要改一本书，不用整本重印——贴几张"修正便签"就够。LoRA的"便签"是两个很小的矩阵（比如7B模型中只需训练8.4M参数，仅0.12%），效果与全量修改相当。
生活类比2：就像给一辆好车加装导航和倒车雷达（加少量外挂组件），而不是把整辆车拆了重造。LoRA就是在预训练模型上"加装"少量可训练参数，满足特定任务需求。

PEFT（Parameter-Efficient Fine-Tuning）

中文：参数高效微调
定义：一类只更新模型少量参数而非全部参数的微调方法的总称，包括LoRA、Adapter、Prefix Tuning、Prompt Tuning、IA3等。目标是大幅降低微调的显存和计算开销。
出处：课题4、课题7
生活类比：全量微调是把整栋楼重新装修，PEFT是只换几个关键房间的家具和墙纸——外观和功能大幅改善，但投入远小于全量翻新。

QLoRA（Quantized Low-Rank Adaptation）

中文：量化低秩适配
定义：LoRA的量化版本。先将原始模型量化到4-bit精度以大幅降低显存占用，再在量化模型上应用LoRA微调。单张消费级显卡即可微调70B级模型。
出处：课题4、课题9
生活类比：全量微调需要租一个大仓库来干活，QLoRA先把全部东西压缩打包（4-bit量化），然后仅在小角落里拆包和调整一小部分——极大节省了"空间"。

Full Fine-Tuning（全量微调）

中文：全量微调
定义：对预训练模型的所有参数进行梯度更新的微调方式。效果通常最好，但计算成本最高。训练一个7B参数模型的全量微调需要多张A100 GPU。
出处：课题1、课题4、课题7
生活类比：全量微调是把整辆车的每个螺丝都拧一遍重新调校——效果最佳，但费时费力费工具（GPU）。

Adapter（适配器）

中文：适配器
定义：在预训练模型的Transformer层之间插入小型可训练模块（Adapter层），微调时只更新这些Adapter参数。每个任务可以训练独立的Adapter，而共享基础模型权重。
出处：课题4
生活类比：不同国家的电器插头不同，但只需要一个小巧的"转换插头"就能兼容。Adapter就是模型的"转换插头"——把一个大模型适配到不同的下游任务。

Knowledge Distillation（知识蒸馏）

中文：知识蒸馏
定义：一种模型压缩技术。先训练一个大型"教师模型"，然后让一个小型"学生模型"学习模仿教师模型的输出分布（软标签），从而将教师模型的知识迁移到效率更高的学生模型。
出处：课题1、课题6
生活类比1：大学教授（教师模型）知识渊博，但一次只能带少数研究生；他把核心知识编成简明教材（软标签），让一个小学生模型学习了教材后也能解决大部分问题。知识蒸馏就是"大牛教小白"的过程。
生活类比2：大厨师傅有一手绝活但不方便到处做菜，他把秘方写成菜谱——小学徒按照菜谱也能做出八九分像的菜。

Teacher Model（教师模型）

中文：教师模型
定义：在知识蒸馏中充当"教师"的大型高性能模型，通常是参数规模大、计算成本高但准确率最高的模型。负责生成"软标签"供学生模型学习。
出处：课题6
生活类比：资深师傅带徒弟——师傅不需要时时刻刻在场，但他留下的"经验"（输出）是徒弟学习的最佳教材。

Student Model（学生模型）

中文：学生模型
定义：在知识蒸馏中充当"学生"的轻量化模型，参数量远小于教师模型。通过学习教师模型的软标签来提升自身性能。
出处：课题6
生活类比：画家的关门弟子——画不出师傅的每一笔细节，但学到了神韵和风格，画作八九分像师傅但创作速度快得多。

Soft Label（软标签）

中文：软标签
定义：知识蒸馏中的核心概念。教师模型输出的概率分布（如分类时各类别的概率），包含比硬标签（one-hot独热编码）更丰富的信息。例如对一张猫的照片，软标签可能是"猫:0.85, 狗:0.10, 虎:0.04, 熊:0.01"，暗含了"猫与虎的相似度高于鱼"的"暗知识"。
出处：课题6
生活类比1：硬标签=“这是一只猫”（只有对/错二分），软标签=“这有85%像猫、10%像狗、4%像老虎”——后者包含了"猫和老虎有一定相似性"的额外知识，学生可以学到更多。
生活类比2：考试打分时，老师不只告诉你"对"或"错"，还告诉你"你的思路对了一半，只是计算错了"——这种"半对"的信息就是教学中最宝贵的软标签。

Hard Label（硬标签）

中文：硬标签
定义：标记数据中的标准答案，是一个确定的类别值（如"猫"），通常以One-Hot编码表示：对应位置为1，其余为0。信息量少但明确。
出处：课题6
生活类比：选择题的标准答案只有一个选项是对的，其他全错——这就是硬标签。简单明确但没有"中间地带"。

Logits（对数几率/逻辑值）

中文：Logits / 对数几率
定义：神经网络最后一层在Softmax激活函数之前的原始输出值。这些值可以是任意实数，经过Softmax转换后变为0-1之间的概率分布。在知识蒸馏中使用Logits可以传递比概率更丰富的"暗知识"。
出处：课题6
生活类比：Logits就像体操比赛中的原始打分（如17.5分），Softmax是把它换算成"100分制下的排名概率"——原始打分比换算后的名次包含更多信息。

Temperature（温度参数）

中文：温度参数
定义：在知识蒸馏和文本生成中的关键超参数。在Softmax函数中，温度T>1使概率分布更"平滑"（各类别差距缩小），T<1使分布更"尖锐"（放大差异）。蒸馏时通常使用T>1来放大软标签中的"暗知识"。
出处：课题4、课题5、课题6、课题7、课题9
生活类比1：温度就像你对学生的"宽容度"——温度高时，即使答得不完美你也会给部分分（概率分布更平滑）；温度低时，只有完美答案才得高分（分布更尖锐）。
生活类比2：品酒师评价一款酒——温度高时"这酒有80%像波尔多，15%像勃艮第，5%像纳帕"；温度低时"这就是波尔多"——高温让你看到更多的"近似性"。

Softmax

中文：Softmax函数
定义：将任意实数向量转换为概率分布的函数（各元素非负且和为1）。常用于多分类任务的最后一层。
出处：课题6
生活类比：几个同学的成绩排名——原始分可能是750、680、720分，Softmax帮你换算成"排名概率"：第一名占38%、第二名占34%……所有概率加起来100%。

Pseudo-Label（伪标签）

中文：伪标签
定义：使用已有模型（通常是大模型）对无标注数据进行预测，将高置信度预测结果作为"伪标签"赋给数据，然后用这些"伪标注"数据训练新模型。是半监督学习的常用技术。
出处：课题6
生活类比1：在淘宝上你可以用历史口味给没用过的新商品打"应该会喜欢的标签"（伪标签），然后基于这个标签来决定是否购买——虽不100%准确，但大部分情况下靠谱。
生活类比2：老师批改了大量试卷后，让AI模仿老师的批改风格给未批改的试卷预判分数——这些预判分数就是"伪标签"。

Catastrophic Forgetting（灾难性遗忘）

中文：灾难性遗忘
定义：当模型在新任务上微调时，原有通用能力或之前学到的知识大幅衰退的现象。是微调的核心风险之一。
出处：课题4
生活类比1：学了英语后法语忘光了——大脑适应了新的语言模式，旧知识被"覆盖"。微调大模型时也会出现类似的"顾此失彼"。
生活类比2：手机系统升级后新的功能变好了，但某些老功能出bug了——这就是软件层面的"灾难性遗忘"。

Overfitting（过拟合）

中文：过拟合
定义：模型在训练数据上表现极好，但在未见过的测试数据上表现很差。原因是模型"记住"了训练数据的噪声和特异性而非学到通用规律。
出处：课题4、课题6
生活类比1：学生把练习册的答案都背下来了（训练集满分），但考试换了一组新题就不会做（测试集低分）——这就是过拟合。
生活类比2：你记住了"猫有4条腿、2只耳朵、1条尾巴"，因此认为"有4条腿、2只耳朵、1条尾巴的都是猫"——遇到狗也说是猫，这就犯了过拟合的错误。

Early Stopping（早停策略）

中文：早停策略
定义：训练过程中监控验证集性能，当验证集指标连续N轮不再提升时提前终止训练，防止过拟合。是最简单有效的正则化技术之一。
出处：课题1、课题4、课题7
生活类比：煲汤时不是煮得越久越好——到一个最佳火候就要关火，再煮下去食材会烂掉。"早停"就是在验证集性能不再提升时果断喊停。

Gradient Clipping（梯度裁剪）

中文：梯度裁剪
定义：在反向传播过程中，对梯度的范数设置上限，超过上限时按比例缩放。防止训练过程中梯度爆炸导致模型参数不稳定。
出处：课题1、课题4
生活类比：开车下坡时用刹车控制速度——梯度裁剪就是训练过程中的"刹车系统"，防止参数更新过快"冲出跑道"。

Mixed Precision Training（混合精度训练）

中文：混合精度训练
定义：训练时同时使用FP16（半精度）和FP32（全精度），大部分计算用FP16加速，关键参数保留FP32精度。结合动态损失缩放防止下溢出。可减少约一半显存占用，提升2-3倍训练速度。
出处：课题4、课题7
生活类比：日常购物用零钱（FP16），大额交易用支票（FP32）——大部分时候零钱够用且方便，但涉及大数时还是需要支票保证精度。

AdamW

中文：AdamW 优化器
定义：Adam优化器的"去耦权重衰减"版本。将权重衰减（L2正则化）从梯度更新中解耦出来，解决了Adam在权重衰减上设计缺陷，是当前大模型训练的事实标准优化器。
出处：课题1、课题4
生活类比：AdamW就像一位有经验的健身教练——不仅告诉你怎么做动作（梯度下降），还会提醒你控制运动强度避免受伤（权重衰减），而且这两个建议是独立给出的（解耦）。

Warmup（学习率预热）

中文：学习率预热
定义：训练开始时将学习率从很小（接近0）逐步线性增加到目标值的过程。目的是让模型先"温和"地适应数据分布，避免训练初期由于随机初始化导致的大幅参数震荡。
出处：课题1、课题4
生活类比：冬天开车前先"热车"——不能一上来就猛踩油门。同理，模型训练也需要从低学习率开始"预热"，训练数百步后再加速。

Cosine Decay（余弦退火学习率调度）

中文：余弦退火
定义：一种学习率衰减策略，学习率按余弦函数曲线从初始值逐渐降至接近0。相比线性衰减，余弦曲线在训练中后期衰减更平滑。
出处：课题1、课题4、课题7
生活类比：烧水时大火烧开（高学习率），然后调小火力慢炖（逐步降低学习率）。余弦退火的特别之处在于"调小火力"的节奏不是线性的，而是先慢后快再慢——像一个平滑的S曲线。

RLHF（Reinforcement Learning from Human Feedback）

中文：基于人类反馈的强化学习
定义：先收集人类对模型多组输出的偏好排序，训练一个奖励模型（Reward Model），再用强化学习算法（如PPO）优化大模型使其输出更符合人类偏好。是ChatGPT等对话模型对齐的核心技术。
出处：课题3、课题5、课题7
生活类比：老师不只告诉学生"对"或"错"——而是对学生写的几篇作文打分排名（人类偏好），AI学习这种偏好形成"评分机器人"（奖励模型），然后大模型努力写出更高分的作文（强化学习优化）。

Instruction Tuning（指令微调）

中文：指令微调
定义：使用大量"指令-回复"格式的数据对预训练模型进行微调，使其学会遵循人类指令而非仅做文本补全。是让模型从"文字接龙"转变为"听话助手"的关键步骤。
出处：课题5、课题7
生活类比：把一个"爱接话"的小孩（预训练模型）训练成一个"服从指令"的小助手——不再是你说不完他就乱接，而是等你把话说完再按要求回答。

四、RAG与检索技术类

RAG（Retrieval-Augmented Generation）

中文：检索增强生成
定义：一种结合信息检索与文本生成的AI框架。在生成回答前，先从外部知识库检索相关文档片段，将其作为上下文注入大语言模型的Prompt中，从而提升回答的准确性、时效性和可追溯性。核心思路是"先查资料再回答"。
出处：课题4、课题7、课题8、课题9
生活类比1：期末考试时，RAG就是"开卷考试"——你不必把所有知识记在脑子里，可以翻书查资料再作答。闭卷考试（纯大模型）容易记错，开卷考试（RAG）只要索引做得好就能准确作答。
生活类比2：客服回答问题——不是凭记忆，而是在知识库系统中搜索相关答案后读给客户。RAG就是给大模型装了一个"企业知识库检索系统"。

FAISS（Facebook AI Similarity Search）

中文：FAISS（向量相似度搜索库）
定义：Meta（原Facebook）开源的向量相似度检索库，支持高效的稠密向量最近邻搜索。可以将文本表示为向量后在毫秒级完成百万级向量的相似度搜索，是RAG系统中最常用的向量检索引擎。
出处：课题4、课题9
生活类比1：传统搜索像在图书馆按书名第一个字一个个翻找，FAISS像是在所有书的"DNA条码"中瞬间扫描——通过向量距离找到最相似的内容，速度快了几个数量级。
生活类比2：你想在万人体育馆找到和自己穿得最像的人——不需要一个个对比，而是把所有衣服的颜色、款式、品牌编码成向量，瞬间找到最相似的几个。

BM25（Best Match 25）

中文：BM25（最佳匹配25）
定义：一种基于词频-逆文档频率（TF-IDF）的经典信息检索排序算法，通过词频和文档长度归一化进行关键词匹配评分。在RAG系统中作为稀疏检索方案与向量稠密检索互补。
出处：课题4
生活类比1：Google搜索的早期原理就是类似的算法——关键词在文档中出现的频率越高、且这个关键词在其他文档中越少见，这篇文档的评分就越高。
生活类比2：在一堆简历中搜索"Python工程师"——这个词在简历中出现的次数越多评分越高，但如果"Python"出现在所有简历里就不加分了（逆文档频率降低权重）。

TF-IDF（Term Frequency-Inverse Document Frequency）

中文：TF-IDF（词频-逆文档频率）
定义：一种统计方法，用于评估一个词对文档集合中某篇文档的重要程度。词频（TF）衡量词在文档中出现的频次，逆文档频率（IDF）衡量词在整个语料库中的稀有程度。二者相乘即为TF-IDF得分。
出处：课题4
生活类比：在一本讲计算机的书中，"计算机"这个词出现了100次（词频高），但"计算机"在所有书中都常见（逆文档频率低），所以它的重要性并不高。而"量子比特"只出现了5次但在其他书中极少出现，它的TF-IDF得分反而更高，更能代表这本书的特色。

Embedding（向量嵌入）

中文：向量嵌入 / 词嵌入
定义：将文本、图像等非结构化数据映射为固定维度的稠密浮点数向量的技术。相似语义的内容在向量空间中位置更接近，是语义搜索、RAG等技术的数学基础。
出处：课题4、课题7、课题9
生活类比1：把每本书压缩成一个包含"主题"“难易度”“风格"等维度的坐标点——两本坐标接近的书就是"相似的书”。"猫"和"狗"的向量距离很近，"猫"和"汽车"的向量距离很远。
生活类比2：地图上的经纬度坐标——北京(116.4, 39.9)和天津(117.2, 39.1)距离很近，和纽约(-74.0, 40.7)距离很远。Embedding就是给文本做"语义GPS定位"。

Chunking（文档分段）

中文：文档分段
定义：将长文档按语义边界切分为较短片段（chunk）的过程。分段大小直接影响RAG系统的检索精度和上下文完整性。太大则检索噪声多，太小则语义不完整。
出处：课题4
生活类比1：切牛排——太大块嚼不烂（检索精度低），太小块没有口感（语义零碎），适中大小（256 tokens）正合适。
生活类比2：把长篇小说分章节——章节太长大概要太多，章节太短缺少上下文，按自然段落和语义边界划分最合理。

Cross-Encoder vs Bi-Encoder

中文：交叉编码器 vs 双编码器
定义：两种不同的检索相关度判断模型。Bi-Encoder分别独立编码查询和文档，通过向量相似度判断相关性，速度快但精度略低。Cross-Encoder将查询和文档拼接后一起输入模型，同时考虑二者的交互，精度高但速度慢。
出处：课题4
生活类比1：Bi-Encoder像两个教练分别看完两个球员的录像后给分（独立判断），速度快；Cross-Encoder像两个球员实际对战一场后由裁判评分（联合判断），更准确但更耗时。
生活类比2：网购时先用关键词搜索（Bi-Encoder快速粗筛），再点进详情页仔细比较商品（Cross-Encoder精细判断）——RAG系统中常先用Bi-Encoder召回，再用Cross-Encoder重排序。

Re-ranking（重排序）

中文：重排序
定义：在RAG流程中，从向量检索召回的候选文档（通常Top-10到Top-20）中，使用更精确的模型（如Cross-Encoder）进行二次排序，挑出最相关的Top-3到Top-5文档送入大模型上下文。
出处：课题4
生活类比：海选（向量检索）选出20名候选人，再由专业评审团逐一面试（重排序），最终选出5名最合适的入围者。

Query Rewrite（查询改写）

中文：查询改写
定义：使用大模型将用户输入的简短、模糊或不规范的问题改写为更精确、更适合检索的查询语句，以提升检索命中率。
出处：课题4
生活类比1：顾客说"那个红红的、有点辣的"，服务员帮你翻译成"水煮肉片"——查询改写就是把口语化的描述转成精确的搜索词。
生活类比2：你给GPS说"去那个新开的商场"，GPS先用大模型理解成"搜索万达广场（XX路店）"——先理解你的意图再精确搜索。

Vector Database（向量数据库）

中文：向量数据库
定义：专门存储和检索高维向量数据的数据库系统（如Milvus、Pinecone、Chroma等），针对向量相似度搜索进行了深度优化，支持海量向量的存储和毫秒级检索。
出处：课题8
生活类比：传统数据库像图书馆目录（按书名找书），向量数据库像"按颜色找衣服"的智能衣柜——你说"找一件和这件蓝色衬衫最搭的衣服"，它自动找出所有相似颜色的服饰。

五、Agent与多智能体类

Agent（智能体）

中文：智能体
定义：基于大语言模型构建的、能够自主感知环境、进行推理规划、调用工具并执行行动以完成特定任务的AI实体。核心能力包括：理解任务、拆解步骤、使用工具、自我纠错。
出处：课题5
生活类比1：Agent就像一个配备了手机、电脑和信用卡的全能私人助理——你说"帮我安排去上海的出差"，它自主完成：查航班→比价→订票→订酒店→添加日历提醒。不需要你指挥每一步。
生活类比2：AutoGPT/TaskRabbit平台上的任务助手——你只提目标，它自己想办法、找工具、执行并检查结果。

Single Agent（单智能体）

中文：单智能体架构
定义：由一个大模型独立承担任务理解、推理规划、工具调用、结果验证等全部角色的系统架构，决策集中、流程简单。
出处：课题5
生活类比1：一个人既当厨师又当服务员还当收银员的小餐馆——所有事一人搞定，简单高效但遇到高峰期容易出错。
生活类比2：全能管家——什么都会做，但要同时处理多件事就不如各有所长的专业团队。

Multi-Agent System（多智能体系统 / MAS）

中文：多智能体系统
定义：由多个功能各异、分工协作的Agent组成的系统。各Agent各司其职（如规划者、执行者、验证者），通过通信协议协调合作，共同完成复杂任务。
出处：课题5
生活类比1：交响乐团——每个乐手各练各的乐器（专业分工），指挥统一协调（编排者），最终合奏出一首曲子（协同完成任务）。比一个人演奏所有乐器效果更好，但需要更多的"协调成本"。
生活类比2：造车流水线——一个工位装发动机、一个装轮胎、一个喷漆——各司其职、效率百倍。多智能体就是大模型世界的"流水线分工"。

ReAct（Reasoning + Acting）

中文：ReAct（推理+行动框架）
定义：将推理（思考下一步该做什么）和行动（实际执行）交替进行的Agent核心框架。Thought→Action→Observation→Thought…的循环让Agent能够在执行中不断调整策略。
出处：课题5、课题8
生活类比1：做饭时的"想一步做一步"——先想想"先烧水"（Thought），然后"打开燃气灶"（Action），看到水开始冒泡（Observation），再想"现在可以下面条了"（下一轮Thought）……
生活类比2：导航APP的逻辑——“先直行200米”（Thought→Action），到达路口看看路况（Observation），再决定"现在右转"（下一轮Thought→Action）。

Task Decomposition（任务分解）

中文：任务分解
定义：将复杂任务自动拆分为多个可独立执行的子任务的过程。是多智能体系统中编排器（Orchestrator/Planner）的核心职责。
出处：课题5、课题6
生活类比：“做一桌年夜饭"→分解为"买食材”“洗菜切菜”“炒热菜”“拌凉菜”“摆桌”——任务分解就是把大目标拆成可执行的小步骤，然后分配给不同的人（或Agent）去执行。

Orchestrator（编排器）

中文：编排器
定义：多智能体系统中负责接收用户任务、分析需求、拆解子任务、分配Agent、协调执行流程并汇总结果的核心Agent，相当于"总指挥"角色。
出处：课题5
生活类比：婚礼策划师——收到"办一场婚礼"的需求后，拆解为定场地、请司仪、选婚纱、排宴席……然后分配任务给不同团队，最后确保一切按计划执行。

Controllability（可控性）

中文：可控性
定义：Agent系统在执行业务任务时，遵循预设规则、约束条件和安全边界的能力。包括格式合规率、边界遵守率、安全约束遵循率和指令遵循率四个子维度。
出处：课题5
生活类比1：自动驾驶汽车的"安全护栏"——不仅要能开到目的地，更要遵守交通规则、不越线、不闯红灯、能听懂乘客的临时指令。可控性就是AI的"驾驶员合规评分"。
生活类比2：给小孩布置"打扫房间"的任务时，你希望他不仅完成了打扫，还要在范围内活动（不翻家长衣柜）、用安全方式（不打碎东西）、按你的要求来（先扫地再拖地）。

Hallucination（幻觉 / 知识幻觉）

中文：幻觉
定义：大语言模型生成看似合理但实际上与事实不符、无法从给定知识源中验证的内容。是当前大模型应用最核心的风险之一。
出处：课题4、课题5、课题8
生活类比1：学生回答"明朝灭亡的原因"，答得头头是道——但把朱元璋和朱棣说成了同一个人。这种"一本正经地胡说八道"就是典型的幻觉。
生活类比2：你问导航"附近哪家川菜好吃"，它推荐了一家"蜀味轩"，但这家店三年前就关门了。模型把"曾经存在"当成了"当前事实"——这就是幻觉。

Guardrails（护栏机制）

中文：护栏机制
定义：为确保AI系统安全、合规运行而设置的一系列约束、过滤和监控规则。包括内容安全过滤、令牌使用限制、输出格式校验、业务规则硬约束等。
出处：课题5
生活类比1：高速公路的护栏——车辆可以在车道内自由行驶（Agent自主决策），但不能冲出围栏撞向对面的车（安全约束）。
生活类比2：儿童手机上的"家长控制"——孩子可以自由使用手机的大部分功能，但某些APP被限制、某些网站被屏蔽——这就是数字世界的护栏。

Tool Use / Function Calling（工具调用 / 函数调用）

中文：工具调用
定义：大模型在推理过程中识别需要使用外部工具（搜索引擎、计算器、数据库API等），生成标准化的工具调用请求，接收工具返回的结果后继续推理的能力。
出处：课题5
生活类比1：你心算不了17的平方，拿出计算器按一下得到289——大模型遇到不会算的数学题，也会"调用计算器"（函数调用）来获取准确结果。
生活类比2：你不会修水管，打电话叫了水管工——大模型不需要内置所有能力，遇到专业问题就"打电话"调用专业工具。

六、知识蒸馏类

Softmax with Temperature

中文：带温度参数的Softmax
定义：知识蒸馏中使用的核心蒸馏损失函数。学生模型学习教师模型在某个温度T下的Softmax输出分布（软标签），同时结合真实硬标签训练。
出处：课题6
生活类比：老师不只告诉学生正确答案，还告诉他"这道题考的是哪几个知识点、常见的错误选项为什么错"——这种超越答案本身的教学信息就是软标签的"暗知识"。

KL Divergence（KL散度）

中文：KL散度（Kullback-Leibler Divergence）
定义：衡量两个概率分布之间差异的指标。在知识蒸馏中用作蒸馏损失，让学生模型的输出概率分布（在温度T下）逼近教师模型的分布。KL散度=0表示两个分布完全相同。
出处：课题6
生活类比：比较两个学生的答题模式——A的答案分布是[90%猫, 5%狗, 5%虎]，B是[85%猫, 10%狗, 5%虎]——KL散度量化了两个答题模式之间的"差距"。差距越小，说明B越像A。

Teacher-Student Framework（教师-学生框架）

中文：教师-学生框架
定义：知识蒸馏的通用架构，由两个模型组成：
- 教师模型：预先训练好、参数大、性能强但推理成本高
- 学生模型：参数小、推理快，通过学习教师模型的知识来提高自身性能
出处：课题6
生活类比：围棋大师（教师）下一盘棋，初学者（学生）不只是看谁赢谁输（硬标签），而是研究大师每一步的思考过程（软标签/Logits）——为什么选这个位置而不是那个位置，从而学到深层的棋道。

Online Distillation（在线蒸馏）

中文：在线蒸馏
定义：教师模型和学生模型同步训练（而非教师先训完再指导学生），二者在训练过程中互相反馈。适合教师模型本身也需改进的场景。
出处：课题6
生活类比：不是大师教完徒弟就退休了——而是师徒一同参加比赛，互相切磋，每场比赛后徒弟学到新东西，师傅也从徒弟的问题中反思提升。两人一起进步。

Self-Distillation（自蒸馏）

中文：自蒸馏
定义：模型自己蒸馏自己——用模型自身的深层输出指导浅层，或用模型在充分训练后的输出指导训练初期的版本。不需要单独的教师模型。
出处：课题6
生活类比：你把今天学到的东西写在笔记本上——一个月后回头看自己的笔记，发现有些地方现在理解得更深了。用自己的"成长版"来教"昨天版"——自己当自己的老师。

七、Prompt工程类

Prompt Engineering（提示词工程）

中文：提示词工程
定义：系统性地设计、优化和管理输入给大语言模型的Prompt，以达到期望输出质量的专业实践。包括模板设计、变量管理、版本控制和A/B测试。是大模型应用开发的核心技能之一。
出处：课题2、课题4、课题5、课题7、课题8、课题9
生活类比1：给外国人指路——说"去故宫"可能不够，需要说"从这儿往北走500米，在天安门后面就是故宫，门票60元需要预约"——好的Prompt就是把话说清楚、说完整，减少误解。
生活类比2：给同事发邮件——"请查收"和"张经理，请查收附件中7月份的销售报告，如有问题请在周五前回复我"效果完全不同。Prompt工程就是学会怎样给AI"发邮件"能得到最准确的回复。

Chain-of-Thought / CoT（思维链）

中文：思维链
定义：通过在Prompt中加入"让我们一步步思考"或提供中间推理步骤的示例，引导大模型在回答前先进行多步推理，而非直接给出最终答案。是提升模型复杂推理能力最有效的Prompt技术之一。
出处：课题1、课题2、课题4、课题5、课题7、课题8
生活类比1：数学老师不会直接告诉你答案，而是边说边写"已知条件…第一步…第二步…最终答案"——CoT就是让大模型像老师一样展示解题过程，不仅提升准确率，也让你能检查推理是否正确。
生活类比2：侦探破案——不直接从线索跳到凶手（容易出错），而是推理：“线索A→说明嫌疑人在现场→线索B→排除甲和乙→所以是丙”。

Few-Shot Prompting（少样本提示）

中文：少样本提示
定义：在Prompt中提供2-5个"输入→期望输出"的示例，让模型通过上下文学习（In-Context Learning）理解任务模式，而不需要任何参数更新。是让大模型快速适应新任务的最常用方法。
出处：课题2、课题4、课题5、课题7
生活类比1：教新人填写报销单——给他看3张已填好的正确示例，他就知道每栏应该填什么了。不需要给他看100张，也不需要专门培训课程。
生活类比2：朋友给你发了三张他的自拍，让你知道他的拍照风格——你再给他拍照时就能拍出他喜欢的风格。Few-Shot就是用几个例子"校准"模型的行为模式。

Zero-Shot Prompting（零样本提示）

中文：零样本提示
定义：在没有任何示例的情况下，仅通过任务描述直接让模型完成任务。依赖模型预训练阶段已经学到的知识和能力。简单直接，但对复杂任务效果受限。
出处：课题2、课题5、课题8
生活类比1：你对一个新朋友说"请把这句话翻成英文"——不需要给他看翻译示例，因为他已经学过英语。Zero-Shot就是相信模型已经会了。
生活类比2：在陌生的城市问路人"最近的ATM在哪"，不需要先解释什么是ATM——路人（模型）已经被"预训练"过，知道ATM是什么。

Context Window（上下文窗口）

中文：上下文窗口
定义：模型一次能处理的最大token数量（输入+输出），决定了模型能"一次性看到"的信息量上限。例如Claude 3支持200K tokens（约15万字），GPT-4支持128K tokens。
出处：课题1、课题4、课题5、课题7、课题8
生活类比1：抄书时，记忆窗口就是你能一次性记住的字数——窗口越大，你能一次抄下的内容越多，翻书的次数越少。
生活类比2：你的"短时记忆"——开会时你能同时记住几个人的发言内容？Context Window就是AI的"短时记忆容量"，越大代表能处理的上下文越长。

Few-Shot vs Zero-Shot vs One-Shot

中文：少样本 / 零样本 / 单样本
定义：描述Prompt中提供示例数量的三种模式。Zero-Shot不给任何示例，One-Shot给一个示例，Few-Shot给2-5个示例。示例越多模型越容易理解任务格式，但消耗的上下文窗口也越大。
出处：课题2、课题5、课题7、课题8
生活类比：教人打牌——Zero-Shot=直接说规则不看牌；One-Shot=示范一局；Few-Shot=示范两三局。示范越多学得越像，但"备课"时间和成本也越大。

八、NL2SQL技术类

NL2SQL / Text-to-SQL

中文：自然语言转SQL
定义：将用户用自然语言描述的查询意图（如"查一下上个月五虎山煤矿的原煤产量"）自动转换为可执行的SQL查询语句的技术。是降低数据库使用门槛、让非技术人员也能查询结构化数据的关键技术。
出处：课题1、课题7
生活类比1：你不会用SQL语句操作数据库，但你能用大白话说"上个月哪个部门加班最多"——NL2SQL就是帮你把大白话翻译成数据库能听懂的SQL代码。
生活类比2：餐厅点菜——你跟服务员说"来个不辣的热菜带米饭"，服务员帮你翻译成"清蒸鲈鱼+米饭套餐"下单。NL2SQL就是数据库的"AI服务员"。

Schema Linking（模式链接）

中文：Schema链接
定义：NL2SQL流程中的关键步骤——将用户自然语言问题中的实体和概念，与数据库Schema中的表名、字段名建立精确对应关系。如"原煤产量"→production_stats.煤产量，"五虎山煤矿"→mines.单位='五虎山煤矿'。
出处：课题1、课题7
生活类比：你问图书管理员"有没有讲恐龙的书"——管理员先要理解"恐龙"对应的是哪个书架编号（古生物→Q91→第三排）。这个"从概念到编号"的映射就是Schema Linking。

SQL Execution Accuracy vs Logical Accuracy

中文：执行准确率 vs 逻辑准确率
定义：
- 执行准确率（EX）：生成的SQL在数据库上运行后，返回的结果集与标准答案完全一致
- 逻辑准确率（LA）：即使SQL写法不同，但逻辑语义等价于标准答案。如WHERE coal>100和WHERE 100<coal逻辑等价但写法不同
出处：课题7
生活类比：数学考试中，EX看你最终数字对不对（执行准确率），LA看你解题思路对不对（逻辑准确率）——即使中间写法不同，只要思路正确、等价，LA就给分。

SQL Skeleton（SQL骨架）

中文：SQL骨架
定义：将SQL生成过程分解为两步：先生成SQL的"骨架"（保留关键字和结构，占位条件值），再填充具体的表名、字段名和条件值。降低了一次性生成完整SQL的复杂度。
出处：课题7
生活类比：做填空题——先确定"SELECT __ FROM __ WHERE __"的结构（骨架），再逐个填写具体内容（字段、表名、条件）。比一次写出完整句子更不容易出错。

CTE（Common Table Expression / 公用表表达式）

中文：CTE（公用表表达式）
定义：SQL中的一种临时命名结果集，可以像普通表一样在同一条SQL语句中被多次引用。使用WITH关键字定义，能显著提升复杂查询的可读性和可维护性。
出处：课题7
生活类比：写论文时先把长段落的关键结论提炼出来放在一边（CTE），后续写其他段落时直接引用这个结论——不需要每次重新论证一遍。

Window Function（窗口函数）

中文：窗口函数
定义：SQL中的高级分析函数，能在一个"窗口"（数据行的子集）上执行聚合计算，而不将行合并为单个输出行。如计算月度累计产量、排名等。
出处：课题7
生活类比：你在课堂上算自己的成绩排名——不需要把所有学生成绩汇总成一条，而是在原始成绩表旁边加一列"排名"。窗口函数就是"在旁边加一列而不改变原表结构"的计算方式。

九、推理引擎与对话系统类

Reasoning Engine（推理引擎）

中文：推理引擎
定义：整合大模型推理能力、领域知识库、数据源和风险评估模块的综合系统，能基于用户多轮对话、历史数据和专业知识进行逻辑推理，给出有依据的结论并评估其可信度。
出处：课题8
生活类比1：资深医生看病——结合病人主诉（对话）、化验单（数据）、医学教科书（知识），一步步推理出诊断结论，并告诉你"我80%确定是这个病因，但也可能是……建议进一步检查……“。推理引擎就是AI版的"资深医生问诊”。
生活类比2：侦探办案——不在现场的案发现场（数据）、掌握的线索（知识）、与证人的对话（对话上下文），最终构建推理链得出嫌疑人——每一步推理都要能站得住脚。

Multi-turn Dialogue（多轮对话）

中文：多轮对话
定义：用户与AI系统之间多轮交替问答的交互模式。AI需要维护对话状态、跟踪上下文变化、理解隐含信息并做出连贯回应，而不仅是机械地回答孤立问题。
出处：课题8
生活类比：你和客服聊天——你：“退货”，客服：“哪笔订单？”，你：“上上周的”，客服：“好的，订单号XXXX对吗？”——客服一直在"记住"前面说了什么，才能理解你跳来跳去的说法。多轮对话就是让AI有这个"持续记忆"能力。

Anaphora Resolution（指代消解）

中文：指代消解
定义：确定对话中代词或省略语所指的具体对象。如"瓦斯浓度超标，它需要立即处理"中，“它"指"瓦斯浓度超标这件事”。是多轮对话理解的核心技术之一。
出处：课题8
生活类比：朋友说"那个新开的店，我去过了，还不错"——你要理解"那个"指的是什么（可能之前聊天提到的），"不错"的评价对象是"那个店"而非其他。指代消解就是AI在对话中"听懂你在说谁"的能力。

Ellipsis Completion（省略补全）

中文：省略补全
定义：恢复多轮对话中被省略的内容。如："原煤产量是多少？“→"15万吨。”“那把煤呢？“→这里省略了"产量是多少”，系统需要自动补全为"那把煤的产量是多少？”
出处：课题8
生活类比：点餐时你说"再来一份"——服务员需要理解为"再来一份你正在吃的那种菜"，而不是上来一个完全不同的菜。省略补全就是AI听懂你"没说完的话"。

Credibility Scoring（可信度评分）

中文：可信度评分
定义：对AI推理结论的可靠性进行量化评估。综合考虑推理链是否完整、知识依据是否充分、数据是否最新、是否存在推测等因素，给出一个分数或等级。低分时触发人工审核。
出处：课题8
生活类比1：天气预报说"明天90%概率下雨"——可信度90%；说"下周可能有台风"——可信度40%。这种概率化表达就是AI推理的"可信度评分"。
生活类比2：医生看完化验报告后说"我有95%把握是这个病，但还有5%可能是一种罕见病，建议再查一个指标确认"——把把握程度明确告知患者，避免过高或过低的预期。

Over-Reasoning（过度推理）

中文：过度推理
定义：模型在证据不足的情况下，基于不充分的线索进行超出合理范围的推理，得出不可靠甚至危险的结论。是多轮对话推理系统需要重点防控的风险。
出处：课题8
生活类比1：你看到邻居车道上有一辆救护车，就推理"邻居一定出事了"——而实际上可能只是邻居在做定期体检。过度推理就是在信息不足时"想太多"导致错误结论。
生活类比2：股市中看到一条"公司CTO离职"的新闻，就推理"这家公司即将破产"——一个孤立事件被过度推断为灾难性结论。

十、动态数据分析与时序类

Real-time Data Stream（实时数据流）

中文：实时数据流
定义：连续不断产生、实时到达的数据序列，如矿井中每秒更新的瓦斯浓度读数、设备振动频率等。与传统的批量静态数据不同，需要流处理架构来持续接收和分析。
出处：课题9
生活类比1：股票行情每秒都在跳动——你不可能等收盘后再分析，需要在跳动的瞬间就做出买卖决定。实时数据流就是"永不停歇的数据瀑布"。
生活类比2：ICU监护仪上的心率曲线——数据源源不断流入，一旦出现异常波形就要立刻报警。和体检时的"单次抽血化验"完全不同。

Anomaly Detection（异常检测）

中文：异常检测
定义：从数据中识别出与大多数数据行为显著不同的模式、事件或观测值。在煤矿场景中用于检测瓦斯浓度突增、设备温度异常升高、风速骤降等安全威胁信号。
出处：课题9
生活类比1：银行卡消费监控——你在国内日常消费几百元没问题，突然在境外刷了5万——银行系统立刻标记为"异常交易"并发短信确认。异常检测就是数据的"安全雷达"。
生活类比2：汽车仪表盘上的故障灯——水温突然升高到红线区域就是"异常"，检测到这个异常后及时提醒司机，防止发动机损坏。

Isolation Forest（孤立森林）

中文：孤立森林
定义：一种基于集成学习的异常检测算法。核心思想：异常点往往"更少且更不同"——在随机划分数据空间时，异常点更容易被提前"孤立"出来（被隔离的路径更短）。优点是不需要标签数据即可工作。
出处：课题9
生活类比：在图书馆1000本书中找一本"异类"——把书按颜色分、再按大小分、再按厚度分……几轮随机划分下来，那本与众不同的书（比如唯一的红色大开本精装版）很快就被单独分出来了——它被"孤立"的路径最短。

3-Sigma Principle（三西格玛原则）

中文：三西格玛原则
定义：经典统计学异常检测方法。假设数据服从正态分布，落在均值±3个标准差范围内的概率为99.73%。超出此范围的点被视为异常。是工业监测中最简单、最常用的异常判定规则。
出处：课题9
生活类比：班里语文成绩平均分80分，标准差5分——根据3-Sigma原则，65分以下和95分以上的学生属于"异常"（超出均值±3×5的范围）。这种"离谱"的成绩值得老师特别关注。

Sliding Window（滑动窗口）

中文：滑动窗口
定义：时序数据分析中常用的数据处理技术。在时间轴上维护一个固定大小的窗口，随时间推移窗口"滑过"数据，只分析窗口内的最新数据点。如"最近1小时的瓦斯浓度均值"。
出处：课题9
生活类比：看股价走势图——你关注的是"最近7天的趋势"，每过一天这个7天窗口就向后滑动一天，始终只关注最新的一周。这就是滑动窗口。

SCADA（Supervisory Control and Data Acquisition）

中文：SCADA（监测控制和数据采集系统）
定义：工业控制系统，用于远程监控和控制工业过程（如煤矿通风、排水、提升等）。通过传感器、PLC、RTU等设备采集实时数据，并在中央控制室显示和记录。是工业生产的"中枢神经系统"。
出处：课题9
生活类比1：智能家居APP——你在手机上能看到全屋每个房间的温度、湿度，能远程开关空调、调节灯光。SCADA就是把一整个矿井变成了"智能家居"，只不过规模大了上万倍。
生活类比2：飞机驾驶舱的仪表盘——飞行员不需要亲自检查每个引擎、每个油箱，所有关键数据都实时显示在仪表板上。SCADA就是煤矿的"驾驶舱仪表板"。

Concept Drift（概念漂移）

中文：概念漂移
定义：在时序数据中，数据分布或数据之间的关系随时间发生缓慢变化的现象。如果模型不更新，旧的预测规则会逐渐失效。如煤矿设备老化导致正常振动频率缓慢上移。
出处：课题9
生活类比：服装潮流每年都在变——去年流行的款式今年可能过时了。如果时尚买手（模型）不更新认知（概念漂移），买回来的货就卖不动了。

十一、统计检验与实验设计类

Paired t-test（配对t检验）

中文：配对t检验
定义：比较两组配对样本均值差异是否显著的统计检验方法。在AI实验中常用于比较同一批测试数据上两个模型的性能差异是否"真实存在"而非随机波动。零假设为"两模型性能无显著差异"。
出处：课题1、课题2、课题4、课题5、课题6、课题7、课题8、课题9
生活类比1：同一班学生参加两次考试（一次开卷一次闭卷），比较开卷和闭卷的分数差异。配对t检验帮你判断"开卷比闭卷高5分"是因为开卷真的有效，还是只是随机波动。
生活类比2：比较同一批人在喝咖啡前后的反应速度——每个人的身体条件不同，但前后的"变化"是可比的。配对t检验就看你喝了咖啡后反应是不是真的变快了。

p-value（p值）

中文：p值
定义：在原假设（H0）为真的前提下，观察到当前样本结果或更极端结果的概率。p<0.05通常被认为是"统计显著"——意味着如果两个模型真的没区别，出现当前差异的概率不到5%。
出处：课题1、课题2、课题4、课题5、课题7、课题8、课题9
生活类比1：p<0.05就像抛硬币连续抛了5次都是正面——如果硬币公平，这个结果的概率只有3.125%（<5%），所以你有理由怀疑"硬币不公平"。在AI实验中，p<0.05意味着你有充分理由说两个模型确实存在性能差异。
生活类比2：体检报告上的某项指标异常——如果100个人里只有不到5个人会有这个数值，医生会认真对待这个"显著的异常"。

Cohen’s d（Cohen效应量）

中文：Cohen’s d（效应量）
定义：衡量两组数据差异大小的标准化指标。不同于p值只判断"是否有差异"，Cohen’s d量化"差异有多大"。d=0.2为小效应，d=0.5为中效应，d=0.8为大效应。
出处：课题4、课题5、课题6、课题7、课题8、课题9
生活类比1：比较两个班级的身高差异——p值告诉你"差异不是巧合"，Cohen’s d告诉你"高了多少厘米以及在所有学生里算不算明显"。
生活类比2：两种减肥药——p<0.05说明A药确实比B药有效，Cohen’s d=0.8说明效果"很大"（平均多减了8斤），Cohen’s d=0.1说明虽然统计显著但效果"很小"不值得换药。

Ablation Study（消融实验）

中文：消融实验
定义：通过逐一移除系统的某个组件并观察性能变化，来量化该组件的贡献度。"消融"取自医学——"切除"一块观察整体功能变化。是验证AI系统各组件价值的黄金标准方法。
出处：课题1、课题4、课题5、课题6
生活类比1：测试一辆车的哪些零件最关键——拆掉空调后车还能开（贡献小），拆掉刹车后车就不能安全驾驶了（贡献大）。消融实验就是"拆除实验"。
生活类比2：一个菜好不好吃——不放盐（消融盐）vs不放酱油（消融酱油）vs不放蒜（消融蒜）——看看缺了哪个味道变化最大，就知道哪个最"不可或缺"。

ANOVA（Analysis of Variance / 方差分析）

中文：方差分析
定义：比较三个及以上组别均值差异的统计方法。单因素ANOVA比较单因素不同水平下各组均值是否相同；双因素ANOVA同时考察两个因素的主效应和交互效应。
出处：课题2、课题5、课题7、课题8
生活类比：比较四种教学方法的教学效果——单因素ANOVA告诉你"四种方法效果是否不同"，双因素ANOVA还能同时考虑"男生和女生对不同教学方法的反应是否也不同"（交互效应）。

Bonferroni Correction（Bonferroni校正）

中文：Bonferroni校正
定义：多重比较中的p值校正方法。当进行多次统计检验时，单纯以p<0.05为标准会导致整体I类错误率膨胀。Bonferroni校正将显著性水平除以比较次数：α’=α/n。
出处：课题4、课题5、课题7
生活类比：你同时考了10门试——不是每门都单独以60分及格，而是需要更高的标准（比如67分），因为"蒙对一门"的概率累积后很大。Bonferroni校正就是在"考很多门"时提高单门标准防止蒙混过关。

McNemar’s Test（McNemar检验）

中文：McNemar检验
定义：一种用于配对名义数据的假设检验方法，特别适用于比较两个分类器在相同测试集上的性能差异。在AI研究中常用于验证两个模型在分类任务上的错误模式是否存在显著差异。
出处：课题6、课题7、课题8、课题9
生活类比：两个医生分别诊断同一批病人——McNemar检验关注的是"两人诊断不一致的病例"中，A比B多正确了多少例。如果不一致病例中A明显多于B，说明A确实更准。

Baseline（基线）

中文：基线/基准模型
定义：作为对比标准的基准模型或方法。所有优化方案都与Baseline比较来证明改进效果。常见基线包括：未经微调的基础大模型、最简单的Prompt、传统规则方法等。
出处：课题1-9通用
生活类比：新药上市前必须和"安慰剂"（Baseline）做对比——证明新药的效果不是心理作用。AI研究中的Baseline就是"安慰剂"——证明你的改进不是随机波动。

Cohen’s Kappa（Kappa系数）

中文：Cohen’s Kappa系数
定义：衡量两个标注员标注一致性的指标，排除了随机一致的影响。Kappa=1表示完全一致，0表示和随机猜差不多，<0表示一致性比随机还差。是数据标注质量控制的核心指标。
出处：课题1、课题2、课题5、课题6、课题8
生活类比：两个老师分别给同一篇作文打分——如果两人都给了85分（高度一致），Kappa接近1。如果一人给60分一人给90分（各打各的），Kappa接近0。Kappa帮你判断主观判断是否可靠。

十二、推理与部署类

Inference（推理）

中文：推理（模型推理）
定义：在AI语境中，"推理"有两个含义：
1. 逻辑推理（Reasoning）：模型根据已知信息推导出新结论的能力
2. 模型推理（Inference）：已训练好的模型对新输入数据进行前向计算并产生输出的过程，与训练（Training）相对
出处：课题4、课题6
生活类比：训练是"学开车"的过程（耗时、耗油、需要教练），推理是"开车上路"——用你已学会的驾驶技能快速到达目的地。模型在训练时"学习"，在推理时"实战"。

TTFT（Time To First Token）

中文：首Token延迟
定义：从发送请求到大模型输出第一个token的时间间隔。TTFT直接影响用户感受到的"响应速度"。影响因素包括模型加载时间、prompt处理时间和KV Cache初始化时间。
出处：课题4、课题6、课题7
生活类比1：按下电梯按钮后到电梯开始移动的时间——如果按了5秒都没反应（TTFT=5s），体验就很差；如果几乎立刻开始移动（TTFT<500ms），体验流畅。
生活类比2：点外卖——从下单到"骑手已接单"的时间就是TTFT；从下单到送达的时间是总响应时间。首Token响应快，用户就更愿意等待。

QPS（Queries Per Second）

中文：每秒查询数
定义：系统每秒能处理的请求数量。是衡量模型服务吞吐量的核心指标。QPS=50意味着系统每秒能处理50个用户提问。
出处：课题1、课题4、课题7
生活类比：超市结账通道——每个收银台每分钟能服务多少人就是QPS。QPS太低就像只有1个收银台营业，排队排到烦躁。

P50 / P95 / P99（分位延迟）

中文：P50/P95/P99延迟
定义：
- P50（中位数）：50%的请求延迟低于此值——代表"典型"体验
- P95：95%的请求延迟低于此值——代表"绝大多数"体验
- P99：99%的请求延迟低于此值——代表"最坏情况"
出处：课题1、课题4、课题6
生活类比1：快递平均3天到货（P50不错）；但有5%的快件需要1周（P95差），1%的快件丢失（P99极差）——关注P95/P99就是关注"最差体验"。
生活类比2：开车上班，P50=30分钟（平时），P95=60分钟（堵车时）——你更关心"最堵的时候要多久"（P95），因为这会决定你几点出门。

Quantization（模型量化）

中文：模型量化
定义：将模型参数从高精度（如FP32/32位浮点）转换为低精度（如INT8/8位整数或INT4/4位整数）表示的技术。大幅降低模型大小和显存占用（可减少75%），代价是轻微的精度损失。
出处：课题1、课题4、课题5、课题7、课题8、课题9
生活类比1：把高清照片（10MB）压缩成JPEG（1MB）——照片看起来差不多，但占的空间小了90%。量化就是给AI模型做"图片压缩"，在"几乎看不出来"的前提下大幅瘦身。
生活类比2：原著vs摘要——原著（FP32）30万字，摘要（INT8）3万字——覆盖了90%的核心内容，但篇幅只有1/10。

ONNX（Open Neural Network Exchange）

中文：ONNX（开放神经网络交换格式）
定义：一种通用的模型表示格式，允许不同深度学习框架（PyTorch、TensorFlow等）训练的模型互相转换和部署。相当于AI模型的"PDF格式"——任何框架都能"打开"。
出处：课题1、课题6
生活类比1：PDF文件——你用Word写的（PyTorch训练）、他用Pages做的（TensorFlow训练），转成PDF（ONNX）后谁都能打开看。ONNX就是AI模型的"PDF格式"。
生活类比2：USB-C接口——不管你是苹果、华为还是三星的手机，都能用同一根线充电。ONNX就是模型格式的"USB-C"。

KV Cache（键值缓存）

中文：键值缓存
定义：Transformer模型在自回归生成过程中，将已生成token的Key和Value矩阵缓存起来，后续token生成时直接复用，避免重复计算。是长文本高效推理的核心优化。
出处：课题4
生活类比：你在解一道长算式"1+2+3+…+100"，每加一步就把结果记下来——下次加下一步时直接从缓存取上一个结果，不需要从头加起。KV Cache就是AI推理的"草稿纸缓存"。

Token

中文：Token（词元）
定义：大语言模型处理的最小文本单元。英文中大约1 token = 0.75个单词，中文中大约1 token = 1.5个汉字。是模型计费、上下文窗口限制和API调用的基本计量单位。
出处：课题2、课题4、课题5、课题7、课题8
生活类比1：算钱时以"分"为单位——Token就是AI世界的"分"，所有价格和容量都按它来计算。
生活类比2：一篇1500字的文章，大约需要1000个中文Token——就像算快递的"首重"和"续重"，Token是计算AI服务用量和费用的基本单位。

GPU vs CPU

中文：GPU（图形处理器） vs CPU（中央处理器）
定义：
- GPU：拥有数千个小核心，擅长大规模并行计算，是大模型训练和推理的主力芯片
- CPU：拥有几个到几十个大核心，擅长复杂逻辑和串行任务
出处：课题1-9通用
生活类比1：CPU像博士——能处理复杂逻辑但不能同时做太多事。GPU像1000个小学生——每个人只会做简单加减法，但1000人同时做，算得飞快。训练大模型需要的是"大量简单运算并行"，所以GPU是主力。
生活类比2：搬砖——CPU是1个大力士每次搬10块（质量高、数量少），GPU是100个小孩每次搬1块（单次少但总量大）——搬一万块砖，GPU完胜。

Docker / Containerization（容器化部署）

中文：容器化部署
定义：将应用及其所有依赖打包为一个独立的"容器"（Container），确保在任何环境中都能一致运行。解决了"在我电脑上能跑"的问题，是AI模型生产部署的标准方式。
出处：课题1、课题5、课题6、课题7、课题9
生活类比：搬家时把所有物品（衣服、餐具、书）分别打包进标准箱子，运到新家拆箱即用——Docker就是给你程序的每个部分都打包好，到任意服务器上都能开箱即用。

十三、大模型基础术语

LLM（Large Language Model）

中文：大语言模型
定义：基于海量文本数据训练、拥有数十亿到数千亿参数的深度学习语言模型。具备强大的语言理解、生成、推理和多任务泛化能力，是当前AI应用的核心基础。
出处：课题1-9通用
生活类比：一个读了全图书馆几十万本书的"超级读者"——你无法指望他在所有方面都是专家，但当你问他任何问题时，他都能给出一个至少看起来合理的回答。

Pre-trained Model（预训练模型）

中文：预训练模型
定义：在海量通用语料上预先训练好的基础模型，学习了语言的通用规律和广泛的世界知识。可以通过微调适配到不同下游任务，是"迁移学习"理念的核心载体。
出处：课题1、课题2、课题6
生活类比：一个完成了12年基础教育的高中毕业生（预训练）——他已经具备了读写算和基本推理能力（通用能力），再经过大学的专业训练（微调）就能成为某个领域的专业人士。

Fine-Tuning（微调）

中文：微调
定义：在预训练模型的基础上，使用特定领域或任务的小规模标注数据进行额外的参数训练，使模型适应新任务。微调使通用大模型变成"领域专家"。
出处：课题2、课题4、课题6、课题7
生活类比1：医学院毕业生（预训练）→在骨科实习一年（微调）→成为骨科医生。微调就是AI模型在通用能力基础上的"专科培训"。
生活类比2：游戏角色的"转职"——基础战士训练后转职为剑圣或圣骑士。预训练是"基础职业"，微调是"转职"。

MoE vs Dense（稀疏激活 vs 稠密激活）

中文：稀疏激活与稠密激活
定义：
- Dense（稠密）：传统模型每个token激活全部参数（如GPT系列）
- MoE（稀疏）：每个token仅激活部分"专家"参数，总参数量大但实际计算量小
出处：课题1、课题8
生活类比：稠密激活像开全体大会——所有员工都参加即使和大部分人的工作内容无关；MoE稀疏激活像分部门开会——只需要相关部门参加，总员工数虽大但每次参会的少。

Emergent Ability（涌现能力）

中文：涌现能力
定义：当模型规模超过某个临界点后，突然展现出小模型完全不具备的新能力（如链式推理、代码理解、工具使用等）。这些能力在训练数据中并未被显式标注，是在大规模预训练中"自发"涌现的。
出处：课题9
生活类比：蚁群中的每只蚂蚁都很笨，但当蚁群达到一定规模后，突然涌现出"架桥"“种蘑菇"等集体智能——这不是哪只蚂蚁学会的，而是数量和交互的"涌现效应”。

Constitutional AI

中文：宪法人工智能
定义：Anthropic公司提出的一种AI对齐方法。通过给模型设定一套类似"宪法"的核心原则和行为准则，让模型在训练中自我批判和修正输出，使其行为更符合人类价值观。
出处：课题2、课题8
生活类比：一个国家的宪法——不是立法者事事指导公民怎么做，而是设定一套基本原则（尊重人权、言论自由等），让所有法律和公民行为都以此为底线。Constitutional AI就是用"AI宪法"规范模型行为。

Beam Search（束搜索）

中文：束搜索
定义：文本生成中的一种解码策略。在每个生成步骤，不只看最可能的1个下一个token，而是保留最优的B个（beam size）候选路径，在后续步骤中综合评估后选择全局最优。相比贪心策略更能产出质量一致的文本。
出处：课题7
生活类比：下棋时不只是看"这一步吃掉对方一个兵"（贪心），而是多想几步——“虽然这一步吃亏但三步后能将军”（束搜索）。保留几个候选方案，多算几步后再决定。

十四、煤矿安全领域术语

Gas Concentration（瓦斯浓度）

中文：瓦斯浓度
定义：矿井空气中甲烷（CH4）的体积百分比浓度。是煤矿安全监测最关键的指标——浓度超标可导致瓦斯爆炸。安全规定：采掘工作面进风流≤0.5%，回风流≤1.0%。
出处：课题1-9通用
生活类比：家里的天然气泄漏警报——浓度超过一定值就会报警甚至爆炸。矿井中的瓦斯浓度就像"整个地下空间的天然气浓度"，时时刻刻都要严密监控。

SCADA in Mining（煤矿SCADA系统）

中文：煤矿监测控制系统
定义：专门用于煤矿生产监控的SCADA系统，整合了通风监控、瓦斯监测、人员定位、提升运输、排水、供电等多个子系统的实时数据，在调度室大屏集中展示。AI接入SCADA数据流后能实现智能预警和自动处置建议。
出处：课题9
生活类比：智能家居的中控App+所有传感器——不同的是，煤矿SCADA监控的是数百个传感器、数百台设备，任何异常都可能关系到矿工的生命安全，可靠性要求远高于民用设备。

Alarm Threshold（报警阈值）

中文：报警阈值
定义：触发安全报警的指标临界值。在煤矿场景中，瓦斯浓度≥0.75%触发黄色预警，≥1.0%触发红色预警并自动断电。阈值设定的准确性和合理性直接关系安全。
出处：课题9
生活类比：汽车油箱报警灯——油量低于10升时亮黄灯提醒加油（预警），低于2升时亮红灯并限制行驶速度（紧急处置）。阈值太低容易出事，太高又频繁误报。

Root Cause Analysis / RCA（根因分析）

中文：根因分析
定义：系统性地追溯问题/事故的根本原因而非表面症状的分析方法。在煤矿场景中，如果瓦斯浓度突增，不仅仅判断"浓度高了"，更要分析"为什么高"——通风机故障？新开了工作面？还是煤层自然涌出？RCA从源头解决问题。
出处：课题9
生活类比：家里漏水——不是简单擦干地板（治标），而是追踪到"水管接头松了"或"楼上防水层坏了"（治本）。根因分析就是不断追问"为什么"直到找到根本原因。

本文档汇总了课题1-9全部研究内容中涉及的术语，共计约150+条核心术语，涵盖模型架构、评估指标、训练微调、RAG检索、Agent智能体、知识蒸馏、Prompt工程、NL2SQL、推理对话、动态数据、统计检验、推理部署等14个类别。每个术语均提供中英文全称、详细定义及生活化类比。