人工智能 常见名词
文章目录
前言
- 只看每个名词的定义和通俗定义即可理解大部分概念
- 插入图片来自b站up主:漫士沉思录
智能
零、 从数学角度来说,智能/黑箱的创建,就是用一条曲线尽可能的穿起所有的已知数据点,以至于
在给出一个新坐标点的x坐标能计算出它的y坐标,或者给出一个新坐标点可以判断出它的性质。

一、专业定义
智能是个体或系统整合感知、认知、学习、推理、决策及自适应等能力的综合属性。它能通过获取外部环境信息并深度处理,结合已有经验动态调整行为模式,从而高效解决复杂问题、应对不确定场景或达成预设目标。
二、通俗解释
智能就是 “不用死板教,能灵活应对新情况” 的能力。不用依赖固定指令重复操作,而是能根据实际场景主动思考、调整做法 —— 比如人看一眼新电器的按钮就知道大概怎么用,智能音箱能听懂不同语气的指令,本质都是 “能灵活适配变化” 的表现。
三、关键特点
感知与交互:能主动获取外部信息(如视觉、听觉、数据),并与环境或对象产生有效互动。
学习与积累:可通过经验(数据、实践)更新自身认知,不用人工逐一修正,能力随场景拓展而提升。
推理与决策:能基于已有信息推导逻辑关系,在复杂选项中做出合理判断,而非机械执行指令。
自适应与泛化:面对未接触过的新场景,无需重新设定规则,就能调整策略完成任务。
黑箱
一、专业定义
黑箱是一个内部结构、运算逻辑或因果关系未被明确揭示的系统。其核心特征是 “输入 - 输出可见,中间过程不可追溯”—— 使用者仅能通过输入数据获取对应输出结果,无法解析内部参数、决策路径或规律推导的具体环节
。
二、通俗解释
黑箱就像一台 “神秘机器”,你只知道把东西放进去(输入),能拿到想要的结果(输出),但完全不知道机器里面是怎么运作的。比如你按一下手机拍照键就能得到照片,不用懂镜头成像、芯片处理的原理;机器学习模型也是如此,输入一张图片能识别出 “猫”,但你不知道模型是通过哪些像素特征、什么判断逻辑得出这个结论的,这就是典型的黑箱。
三、关键特点
过程不可见:内部决策逻辑、数据处理路径无法被直接观察或拆解。
结果可预期:给定固定输入,能稳定输出符合规律的结果,具备可重复性。
解释性弱:难以用人类易懂的语言(如 “因为有尖耳朵所以是猫”)说明输出结果的产生原因。
依赖输入输出验证:只能通过调整输入、观察输出变化,间接推测内部可能的运作规律,无法直接验证。
联结主义
-
中心思想:模拟人脑
-
专业定义
链接主义是基于神经网络和分布式表示的 AI 流派,核心是模拟人脑神经元的连接结构,通过大量数据训练调整网络中的连接权重,让系统自主学习数据中的规律,无需人工定义显式规则。 -
通俗解释
链接主义就像 “教小孩学说话”—— 不用先教语法规则,而是给它大量语言样本(数据),让它通过反复接触自主总结规律(调整神经元连接),慢慢学会理解和表达。机器学习中的神经网络、深度学习,都是链接主义的典型应用。 -
关键特点
数据驱动:依赖海量数据训练,自主挖掘规律,无需人工编写规则。
黑箱特性:内部权重调整和决策路径复杂,解释性较弱。
泛化能力强:能适应未见过的新场景,通过数据训练持续优化性能。
擅长非结构化任务:适用于图像识别、自然语言处理等无明确固定规则的问题。
符号主义
-
权重计算
-
专业定义
符号主义是基于逻辑推理和符号表示的 AI 流派,核心是将知识、概念转化为可操作的符号(如文字、逻辑符号),通过预设的规则(如 if-then 逻辑)进行推理决策,模拟人类的理性思维过程。 -
通俗解释
符号主义就像 “教计算机做数学证明”—— 先给计算机明确的 “知识点”(符号化的概念)和 “解题规则”(逻辑推理步骤),它只需按规则一步步推导,就能得出结果。比如早期 AI 程序证明数学定理,就是靠人工编写的逻辑规则,从已知条件推导结论。 -
关键特点
依赖人工定义:知识和规则需由人类专家明确提炼、符号化编码。
逻辑透明:决策过程可追溯,能清晰解释 “为什么得出这个结论”。
擅长结构化任务:适用于规则明确、场景固定的问题(如形式逻辑、早期专家系统)。
泛化能力弱:遇到未预设规则的新场景,无法自主调整,需重新编写规则。
机器学习
一、专业定义
机器学习是一门研究如何使计算机系统通过经验数据自动学习和改进,在特定任务上逐步提升性能(如预测准确性、决策合理性),而无需显式编程指定每一步操作的学科。其核心是构建能从数据中挖掘模式、进行泛化推理的算法模型。
二、通俗解释
简单说,机器学习就是让计算机像人一样 “从经验中学习”。
1.不用人逐条写规则:比如识别猫,不用告诉计算机 “猫有尖耳朵、毛茸茸、有尾巴”,而是给它成千上万张猫和非猫的图片。
2.算机自己找规律:模型会自动分析这些图片的像素特征,总结出 “猫” 的共同规律(比如特定的轮廓、颜色分布)。
3.学会后能举一反三:再给它一张从没见过的猫的图片,它能根据之前学到的规律,判断出这是猫。
三、记忆点
- 数据驱动,而非规则驱动
核心依赖大量经验数据,而非人工编写的固定规则。
比如推荐商品,不用预设 “喜欢 A 的人一定喜欢 B”,而是通过分析用户历史购买 / 浏览数据,让模型自己发现关联。 - 自主学习与迭代优化
模型能从数据中自动挖掘规律,且性能可随数据积累持续提升。
数据越多、训练次数越多,模型对规律的把握越精准,比如垃圾邮件识别率会随新样本补充不断提高。 - 泛化能力是核心目标
不仅能 “记住” 训练数据中的规律,还能对未见过的新数据做出准确判断。
比如用 10 万张猫的图片训练后,能识别从未见过的第 100001 张猫的图片,这是机器学习的关键价值。 - 无需显式编程指定具体步骤
不用告诉计算机 “如何完成任务”,只需明确 “任务目标”(如 “区分猫和狗”“预测明天气温”)。
计算机通过算法自主探索完成目标的路径,无需人工干预中间过程。
感知机

零、 启示: 联结主义与符号主义不是水火不容的。神经元从接受多个树突的信息,将结果从一条突触发出。就好像感知机输入多个因素在神经元内进行计算权重并最终输出一条结果。 权重的简单计算认为是单个神经元负责的,最终汇聚人脑中无数神经元处理的结果,对现实事物做成反应
一、专业定义
感知机(Perceptron)是基于神经元结构的线性分类模型,由输入层、权重参数、偏置项、激活函数和输出层组成。它通过对多个输入信号进行加权求和,叠加偏置项后传入激活函数,最终输出二元结果(0 或 1),本质是用线性超平面划分两类数据。
二、通俗解释
感知机就像一个 “简单决策者”,比如判断 “要不要出门”:
输入信号:当天的温度、是否下雨、是否有约会(相当于数据特征);
权重参数:每个因素的重要程度(比如 “有约会” 权重最高,“下雨” 权重为负);
计算过程:把 “因素 × 权重” 相加,再加上一个基础偏置(比如 “本来就想出门” 的倾向);
激活函数:判断总和是否达到阈值,达到就输出 “出门(1)”,没达到就输出 “不出门(0)”。
它是神经网络的 “积木”,多个感知机组合起来,就能构建更复杂的网络处理复杂任务。
三、关键特点
结构极简:仅含一个输出节点,无隐藏层,是最基础的神经网络模型。
线性分类:仅能处理线性可分的数据,无法解决异或(XOR)这类线性不可分问题。
监督学习:训练过程需依赖带标签的样本,通过调整权重和偏置项最小化预测误差。
激活函数:核心是 “阈值判断”,常用阶跃函数(如符号函数)输出二元结果。
四、举例

一、场景设定
感知机的任务:输入 3 个关键因素,输出 “适合野餐(1)” 或 “不适合野餐(0)”。
二、具体参数
输入特征(x₁、x₂、x₃):
x₁:天气是否晴朗(是 = 1,否 = 0)
x₂:温度是否适宜(15-25℃=1,否则 = 0)
x₃:是否无大风(是 = 1,否 = 0)
权重(w₁、w₂、w₃):代表每个因素的重要程度
w₁=3(天气晴朗最重要)
w₂=2(温度适宜次之)
w₃=2(无大风也关键)
偏置项(b):基础倾向,这里设 b=-5(相当于 “门槛”,需满足总得分≥0 才适合)
激活函数:阶跃函数(总得分≥0 → 输出 1,否则输出 0)
三、计算过程(2 个实例)
实例 1:适合野餐的情况
输入:天气晴朗(x₁=1)、温度适宜(x₂=1)、无大风(x₃=1)
加权求和:(1×3) + (1×2) + (1×2) + (-5) = 3+2+2-5=2
激活函数判断:2≥0 → 输出 1(适合野餐)
实例 2:不适合野餐的情况
输入:天气阴雨(x₁=0)、温度适宜(x₂=1)、无大风(x₃=1)
加权求和:(0×3) + (1×2) + (1×2) + (-5) = 0+2+2-5=-1
激活函数判断:-1<0 → 输出 0(不适合野餐)
线性不可分
一、 什么是线性不可分问题
-
定义
线性不可分问题是指在特征空间中,不同类别的样本相互交错分布,不存在单一线性决策边界(2 维是直线、3 维是平面、高维是超平面)能将所有同类样本归到一侧、不同类样本完全分离。数学上,即没有线性函数能满足 “所有同类样本的函数输出一致,不同类样本输出不同”。 -
经典举例:异或(XOR)问题

这是最典型的线性不可分案例,输入为两个二进制变量(x₁,x₂),输出规则如下:
输入(0,0)→ 输出 0
输入(0,1)→ 输出 1
输入(1,0)→ 输出 1
输入(1,1)→ 输出 0
若将这 4 组输入当作平面上的点(x₁为横轴,x₂为纵轴),输出 0 的点是(0,0)和(1,1),输出 1 的点是(0,1)和(1,0)。此时无论怎么画直线,都无法让输出 0 的点在一侧、输出 1 的点在另一侧,这就是典型的线性不可分。
二、单层感知机为何无法解决线性不可分问题
结构局限:单层感知机只有 “输入层→输出层”,无隐藏层,本质是一个线性分类模型。
决策边界固定:它的核心是学习一条线性边界(如 2 维中的 y=ax₁+bx₂+c) ,只能处理 “能被这条直线分开” 的数据。
无非线性能力:单层感知机的激活函数(如阶跃函数)虽有阈值判断,但整体模型仍是线性的,无法对数据特征进行非线性转换,自然突破不了线性边界的限制。
简单说,单层感知机 “只会画直线”,而线性不可分问题需要 “画曲线或复杂边界”,因此它完全无能为力。
三、多层感知机(MLP)如何解决这一问题
MLP 通过 “结构升级 + 非线性引入”,两步(两种方法)突破线性限制:
-
增加隐藏层:实现特征非线性转换
隐藏层的每个神经元都是一个 “小感知机”,会对原始输入特征进行拆分、重组和转换。
以异或问题为例:隐藏层可先将输入(x₁,x₂)转化为新特征 —— 比如 “x₁≠x₂”(对应输出 1)和 “x₁=x₂”(对应输出 0)。
经过隐藏层转换后,原本交错的原始数据,在新的特征空间中变成了线性可分的(比如 “x₁≠x₂” 的点归为一类,“x₁=x₂” 的点归为另一类)。 -
引入非线性激活函数:让决策边界变灵活
MLP 在隐藏层和输出层使用非线性激活函数(通过多层感知机的组合实现)(如 ReLU、Sigmoid),而非单层感知机的线性阶跃函数。激活函数能给模型注入 “非线性”,让最终的决策边界从 “直线 / 平面” 变成 “曲线 / 复杂曲面”。即使没有隐藏层,仅用非线性激活函数也无法解决异或问题,但结合隐藏层的特征转换后,非线性激活函数能让模型拟合转换后的复杂边界,最终实现精准分类。
多层感知机

核心结论:多层感知机(MLP)是在单层感知机基础上增加隐藏层的神经网络,能处理线性不可分问题,是深度学习的基础模型之一。
一、专业定义
多层感知机是由输入层、一个或多个隐藏层、输出层组成的全连接神经网络。各层包含多个感知机(神经元),层间神经元完全连接,通过激活函数引入非线性,能学习数据中的复杂非线性关系,突破单层感知机的线性分类局限。
二、通俗解释
多层感知机就像 “多个简单决策者组队干活”—— 单层感知机只能做 “单一步骤判断”,而 MLP 通过增加隐藏层,让多个 “小决策者” 分工协作:
输入层:接收原始信息(比如判断 “是否是猫” 的图片像素、判断 “是否投资” 的多个指标);
隐藏层:每个神经元都是一个 “小感知机”,各自处理部分特征(比如有的识别 “尖耳朵”,有的识别 “毛茸茸”),再把处理结果传递下去;
输出层:汇总隐藏层的结果,做出最终决策(比如 “是猫” 或 “不是猫”)。
比如解决 “异或(XOR)” 问题(单层感知机搞不定),MLP 的隐藏层会先拆分特征,再组合判断,最终得出正确结果。
三、关键特点
多隐藏层结构:至少包含一层隐藏层,隐藏层数量越多、神经元越多,模型拟合复杂规律的能力越强。
非线性表达:隐藏层和输出层会使用非线性激活函数(如 ReLU、Sigmoid),打破单层感知机的线性限制。
全连接特性:相邻两层的每个神经元之间都有连接,每个连接对应独立权重,通过训练不断调整。
更强的拟合能力:能处理线性不可分数据,可用于分类、回归等多种任务(如手写数字识别、房价预测)。
神经网络
识别直线 ——> 组成曲线 -——> 组成形状(例如圆圈/直线)——> 判断出图中是哪个数字
一、什么是神经网络
-
专业定义
神经网络是由大量人工神经元(模拟生物神经元)通过加权连接形成的计算模型。它以层状或网状结构组织,能通过数据训练调整连接权重,学习数据中的规律,实现感知、分类、预测等智能任务,是机器学习和深度学习的核心模型框架。 -
通俗解释
神经网络就像 “模拟人脑思考的连接网络”—— 无数个 “小决策单元(神经元)” 相互配合,接收信息、协同处理,再输出结果。比如识别图片时,有的神经元负责看线条,有的负责看颜色,最后汇总判断,类似人脑不同区域分工协作的过程。 -
关键特点
由神经元和连接权重构成核心,权重通过训练动态调整;
具备学习和泛化能力,能从数据中自主挖掘规律;
可通过增加层数、调整结构,适配不同复杂任务(图像、文本、语音等)。
二、神经网络与多层感知机(MLP)的关系
-
从属关系:MLP 是神经网络的 “基础成员”
神经网络是广义范畴,包含所有神经元连接形成的模型(如 MLP、CNN、RNN、Transformer 等);
MLP 是神经网络的具体类型,是结构最简单、最早普及的神经网络之一,也是后续复杂神经网络的基础雏形。 -
核心区别:MLP 的明确界定(与其他神经网络对比)
MLP 有严格的结构约束,这是它区别于其他神经网络的关键:
全连接:相邻两层的每个神经元都相互连接(比如输入层的每个节点都连到隐藏层的所有节点);
前馈式:数据只能从输入层→隐藏层→输出层单向传递,无循环或反馈结构;
层状规整:必须包含输入层、至少一个隐藏层、输出层,结构清晰有序。
而其他神经网络(如 CNN 用局部连接、RNN 有循环结构)均突破了这些约束,以适配特定任务。 -
简单总结
所有 MLP 都是神经网络,但神经网络≠MLP;
MLP 是神经网络的 “基础款”,后续复杂神经网络(如 CNN、Transformer)都是在 MLP 的基础上,通过优化结构(如局部连接、注意力机制)提升效率和适配性。
卷积
核心结论:卷积是一种 “局部滑动计算” 的数学操作,在 CNN 中用于提取图像等空间数据的局部特征(如边缘、纹理),核心是通过卷积核与局部区域的加权求和,捕捉数据的局部关联性。 (每次判断图片整体的一小块区域)
一、专业定义
卷积(Convolution)在 CNN 中特指二维卷积:将一个固定大小的矩阵(卷积核 / 滤波器)在输入特征图(如图像像素矩阵)上按固定步长滑动,每滑动到一个位置,就将卷积核与对应区域的输入元素逐一相乘后求和,得到输出特征图上的一个像素值。数学上是两个函数的积分变换,在 CNN 中简化为离散的加权求和运算。
二、通俗解释
卷积就像 “用一个小模板在图片上扫一遍,找特定图案”:
卷积核是提前设定的 “特征探测器”(比如 3×3 的小矩阵),每个数值代表 “对不同位置像素的敏感度”;
比如要找图像的水平边缘,卷积核会设定为 “上半部分为 1,下半部分为 - 1”—— 滑动时,若遇到水平边缘(上下像素亮度差异大),加权求和后会得到大数值,反之则数值小;
整个过程就像用放大镜逐行逐列检查图片,每处都用 “小模板” 比对,最终筛选出符合模板特征的区域,形成新的特征图。
三、CNN 中卷积的关键作用
提取局部特征:卷积核只关注固定大小的局部区域(如 3×3),能精准捕捉图像的边缘、纹理等底层局部特征,符合视觉认知规律。
权值共享:同一个卷积核在整张特征图上重复使用,不用为每个局部区域单独设计参数,大幅减少模型参数数量,避免过拟合。
保留空间关系:滑动计算时,相邻区域的特征会在输出特征图上保持相对位置,不会破坏图像的空间结构(这是 CNN 比 MLP 适合图像的核心原因)。
四、简单示例(3×3 图像卷积计算)
假设输入图像是 3×3 像素矩阵,卷积核是 3×3 矩阵,步长为 1(每次滑动 1 个像素):
输入图像(像素值):[[1,2,3],[4,5,6],[7,8,9]]
卷积核:[[1,0,-1],[1,0,-1],[1,0,-1]](检测垂直边缘)
计算过程:对应位置元素相乘求和 → (1×1)+(2×0)+(3×-1)+(4×1)+(5×0)+(6×-1)+(7×1)+(8×0)+(9×-1) = 1-3+4-6+7-9 = -6
输出特征图上对应位置的像素值就是 - 6,代表该区域存在垂直边缘特征
补充说明:
本例中‘为什么值为 -6 就认为该区域存在垂直边缘特征’
核心结论:-6 能判断存在垂直边缘,核心是卷积核的设计逻辑和数值代表的 “亮度差异强度” —— 该结果说明区域内左右像素亮度差异显著,符合垂直边缘的本质特征。
一、先明确:垂直边缘的本质是什么?
垂直边缘的核心是 “左右两侧像素亮度突变”(比如图像中一条竖线,线左边暗、右边亮,或反之)。人眼看到的垂直边缘,本质就是这种 “局部左右亮度差异大” 的视觉信号,CNN 的卷积核就是为了捕捉这种差异而设计的。
二、本次示例中卷积核的 “检测逻辑”
示例用的卷积核是:[[1,0,-1],[1,0,-1],[1,0,-1]],它的设计目标就是 “找垂直边缘”,结构暗藏玄机:
左列全是 1:代表 “给区域左侧的像素加权加分”;
中列全是 0:代表 “不影响中间的像素,只聚焦左右对比”;
右列全是 - 1:代表 “给区域右侧的像素加权减分”。
整个卷积核的核心作用:计算 “左侧像素总亮度 - 右侧像素总亮度”,放大左右亮度差异 —— 差异越大,输出数值的绝对值越大;若左右亮度均匀(无边缘),输出数值会接近 0。
三、结合示例数据,拆解 - 6 的意义
示例输入图像的区域像素是:[[1,2,3],[4,5,6],[7,8,9]],这个区域的特点是 “从左到右像素值递增”(相当于从左到右亮度逐渐变亮),是典型的 “左暗右亮” 的垂直边缘场景。
计算过程的本质的是:(左侧像素总和 ×1) + (中间像素总和 ×0) + (右侧像素总和 ×-1)= (1+4+7) - (3+6+9)= 12 - 27 = -6
数值为负:仅代表 “右侧亮度> 左侧亮度”(若左亮右暗,结果会为正),不影响 “是否是边缘” 的判断;
绝对值为 6(较大):代表左右亮度差异很显著(12 和 27 的差距被完全放大),说明该区域存在明显的 “左右亮度突变”—— 这正是垂直边缘的核心特征。
四、总结关键逻辑
卷积核的 “左加右减” 设计,让输出数值直接反映 “左右亮度差异”;
输出数值的绝对值越大,说明差异越明显,边缘越清晰;
示例中 - 6 的绝对值足够大,且符合 “左右亮度突变” 的特征,因此判定该区域存在垂直边缘。
如果该区域没有垂直边缘(比如像素值均匀:[[5,5,5],[5,5,5],[5,5,5]]),卷积计算结果会是 0,就不会判定为边缘。
卷积神经网络
零、意在说明从基础的多层感知机,通改进可以发展出很多用处、优势各异的神经网络。
一、专业定义
卷积神经网络是基于局部感受野、卷积运算、权值共享和池化操作的前馈神经网络。它通过卷积层捕捉数据的局部空间关联性(如图像的边缘、纹理、形状),经池化层压缩特征维度、保留关键信息,再通过全连接层或其他输出层完成分类、检测等任务,核心是高效提取空间数据的层级特征,兼顾性能与计算效率。
二、通俗解释
CNN 就像 “专门识别图像的智能眼睛”,和 MLP “全连接看整体” 的方式不同,它更擅长 “分区域、找细节、拼特征”:
比如识别猫的图片,CNN 不会一次性处理所有像素,而是用无数个 “小探测器”(卷积核)逐块扫描图片 —— 有的探测器找线条,有的找斑点,有的找尖耳朵(这是卷积操作);
扫描后会 “简化信息”(池化操作),只保留关键特征(比如 “有尖耳朵”,不管耳朵在图的左边还是右边);
再把这些底层细节逐步组合成高层特征(比如 “尖耳朵 + 毛茸茸 = 猫的头部”),最后汇总判断 “这是猫”。
整个过程类似人看画:先看局部线条、色块,再拼出物体轮廓,最后认出是什么,而非直接盯着整幅画的所有像素。
神经网络结构设计
核心结论:神经网络结构设计是根据具体任务(如分类、预测、图像识别),规划模型的层级划分、组件选择、连接规则和参数配置,本质是搭建 “神经元协作的框架”,直接决定模型的学习能力和效率(知道粗体字就可以了,后面不用看了)。
一、专业定义
神经网络结构设计是指在构建模型时,对网络的拓扑结构、层间关系、核心组件及训练规则进行系统性规划的过程。核心包括确定输入层 / 隐藏层 / 输出层的数量与神经元个数、选择层类型(卷积层 / 全连接层 / 循环层等)、定义神经元连接方式(全连接 / 局部连接 / 注意力连接)、配置激活函数 / 优化器 / 损失函数等关键组件,最终形成适配任务需求的可训练模型。
二、通俗解释
神经网络结构设计就像 “搭积木 + 定规则”:
搭积木:决定用哪些 “积木块”(比如 CNN 的卷积层、MLP 的全连接层),搭多少层,每层放多少块(神经元个数),以及积木之间怎么连(全连接还是局部连);
定规则:规定积木怎么 “协作”(激活函数怎么处理信号)、怎么 “纠错进步”(优化器和损失函数的选择)。
比如做图像识别,就选 “卷积层 + 池化层 + 全连接层” 的积木组合;做文本翻译,就选 “循环层 / Transformer 层” 的组合,不同组合适配不同任务。
2025 年前后,流行的神经网络结构设计呈现出 CNN 与 Transformer 融合、轻量化优化、适配长序列处理等趋势,既有革新传统架构的新星,也有持续迭代的经典改进模型,以下是主流且热门的结构设计列举:
适配长序列的高效架构 ——Mamba
这是 2025 年的热门架构,基于状态空间模型,核心优势是解决了 Transformer 处理长序列时计算复杂度高、速度慢的问题。它通过选择性状态空间设计,实现了线性时间复杂度,在处理文本、语音、时间序列等长序列任务时,效率远超 Transformer,且性能表现更优。其架构设计简洁,将原有架构模块与 Transformer 块融合,凭借可变性和灵活性,成为长序列建模领域的有力竞争者。
科学计算领域新星 ——KAN(科尔莫格罗夫 - 阿诺德网络)
该架构灵感源于科尔莫格罗夫 - 阿诺德表示定理,与传统 MLP 差异显著。MLP 的激活函数在神经元上且多为固定形式,而 KAN 把可学习的激活函数(参数化为样条曲线)放在权重上。它能用极少参数实现高精度建模,比如仅 200 个参数就可复现 DeepMind 用 30 万参数 MLP 完成的数学定理研究,还能规避大模型的灾难性遗忘问题,在函数拟合、偏微分方程求解、凝聚态物理相关任务中表现优于 MLP。此外,它可直观可视化,具备 MLP 缺乏的可解释性,不过目前存在训练速度较慢的缺点。
移动端轻量化架构 ——EMO
面向移动端应用设计,核心是反向残差移动块(iRMB)模块,该模块融合了 CNN 的效率与 Transformer 的动态建模能力。iRMB 通过级联 W - MHSA 和 DW - Conv 并结合残差机制,既解决了纯 CNN 模型精度不足的问题,又缓解了 Transformer 计算量过大的弊端。EMO 整体仅由 iRMB 堆叠而成,结构简约,无复杂运算符,能以较少参数和计算量,在 ImageNet - 1K、COCO2017 等基准测试中超越同类 CNN 和 Transformer 轻量化模型,适配移动端存储和计算资源受限的场景。
视觉领域 Transformer 革新架构 ——Swin Transformer
它是 Transformer 在计算机视觉领域的关键改进架构,解决了传统 Transformer 处理图像时计算量过大的问题。其核心是移位窗口机制,将图像划分成非重叠窗口,注意力计算仅在窗口内进行,同时通过窗口移位实现跨窗口信息交互。这种设计让计算复杂度随图像尺寸线性增长,适配高分辨率图像任务。该架构兼顾了局部特征提取和全局信息融合,在图像分类、目标检测、语义分割等多个视觉任务中性能优异,推动了 Transformer 在 CV 领域的规模化应用。
轻量视觉混合架构 ——MobileViT 系列
该系列是 CNN 与 Transformer 的混合轻量化架构,将 MobileNet 的轻量化优势和 Transformer 的全局特征捕捉能力相结合。它规避了纯 CNN 难以建模长距离依赖的缺陷,同时解决了传统 Transformer 计算成本高的问题。相比传统 MobileNet 系列,其精度显著提升;相较于其他混合模型,结构更简洁,无需引入过多复杂模块,适配移动设备上的图像识别、目标检测等任务,成为 2025 年移动端视觉任务的热门选择。
卷积网络改进架构 ——ConvNeXt
采用现代技术对传统卷积网络进行改造的混合架构代表。它保留了 CNN 的局部连接、平移不变性等优势,同时吸收了 Transformer 的部分设计思路,比如调整网络的通道数配比、优化层归一化方式等。该架构既具备卷积网络的高效计算特性,又在性能上逼近甚至比肩 Transformer 相关视觉模型,在图像分类等任务中表现出色,成为兼顾性能与效率的视觉架构优选之一。
长序列时序预测架构 ——Informer/Autoformer
二者均是 Transformer 在时序预测领域的改进版,针对传统 Transformer 处理长时序数据时计算复杂、依赖捕捉不精准的问题优化。Informer 通过稀疏注意力机制减少计算量,Autoformer 引入自相关机制模拟时序数据的周期性特征。它们均属于深而窄的结构,能有效捕捉多变量时序数据的长距离依赖和全局模式,在复杂非线性、多变量的时序预测任务中,表现优于传统 LSTM、GRU 等循环结构,成为时序预测领域的主流高端架构。
拟合函数
核心结论:拟合函数是模型通过训练学到的、描述输入特征与输出结果之间映射关系的数学表达式,本质是对数据内在规律的 “数学刻画”,也是模型实现预测、分类的基础。
一、专业定义
拟合函数(Fitting Function)又称模型函数,是神经网络在训练过程中优化得到的输入到输出的映射函数。它由模型的结构(如神经元连接方式、层数)、权重、偏置及激活函数共同决定,能将输入特征向量映射为输出值(分类概率、回归预测值等),目标是尽可能贴近数据的真实映射关系。
二、通俗解释
拟合函数就像 “模型总结出的规律公式”:
比如用数据训练模型预测房价,模型会从 “面积、地段、房龄” 等输入特征中,找到它们与房价的关联;
最终形成一个 “房价 = (面积 × 权重 1)+(地段 × 权重 2)+(房龄 × 权重 3)+ 偏置” 的函数(实际是更复杂的非线性表达式),这个函数就是拟合函数;
后续预测时,只需把新房屋的特征代入这个函数,就能算出对应的房价预测值,相当于用总结好的规律做判断。
简单说,训练模型的过程,就是让模型 “找到最贴合数据规律的拟合函数”。
三、关键特点
由模型结构决定形式:线性模型(如单层感知机)的拟合函数是线性的,神经网络(含非线性激活)的拟合函数是非线性的。
由训练数据优化参数:拟合函数的参数(权重、偏置)不是预设的,而是通过数据训练,以损失函数最小化为目标调整得到的。
适配数据规律:理想的拟合函数能精准捕捉数据的内在关系,既不遗漏关键规律(欠拟合),也不捕捉噪声(过拟合)。
可泛化性是核心目标:拟合函数不仅要在训练数据上表现好,还要能适配未见过的新数据,这是模型实用价值的关键。
四、与损失函数的关联
拟合函数是 “模型的预测规则”,损失函数是 “衡量规则好坏的标准”;
训练时,通过损失函数判断拟合函数的预测误差,再反向调整拟合函数的参数(权重、偏置),直到拟合函数足够贴合真实数据规律。
损失函数
一、专业定义
损失函数(Loss Function)又称代价函数,是量化模型预测值与真实目标值之间误差的函数。它将模型的预测结果映射为一个非负实数(损失值),通过反向传播算法,利用损失值的梯度信息调整模型参数(如权重、偏置),最终最小化预测误差,实现模型的学习与优化。
二、通俗解释
损失函数就像 “老师批改作业的评分标准”:
模型的预测结果是 “学生的答案”,数据的真实标签是 “标准答案”;
损失函数相当于 “打分规则”,对比两者的差异给出 “扣分”(损失值)—— 答案越接近标准答案,扣分越少(损失值越小),反之扣分越多;
训练模型的过程,就是让模型不断 “订正作业”(调整参数),争取让总扣分(总损失)降到最低。
比如预测房价时,模型猜 150 万,真实价格 140 万,损失函数就会计算出这个 10 万的差异对应的损失值,引导模型下次调整参数,让预测更接近 140 万。
三、关键特点
非负性:损失值通常≥0,仅当预测值与真实值完全一致时,损失值为 0(理想状态)。
误差敏感性:预测与真实值差异越大,损失值增长越明显,能有效反映误差程度。
可微性:主流损失函数(如 MSE、交叉熵)具备可微性,才能通过梯度下降法反向调整模型参数(少数场景可用不可微函数,如 Huber 损失)。
任务适配性:不同任务(分类、回归)需选择对应的损失函数,否则无法有效训练。
四、常见类型与适用场景
均方误差(MSE):适用于回归任务(如房价预测、气温预测),计算预测值与真实值差值的平方和均值,对 outliers 敏感。
均方误差:损失函数值越小越好
交叉熵损失(Cross-Entropy Loss):适用于分类任务(如图像识别、文本分类),衡量预测概率分布与真实分布的差距,分类效果更优。
二元交叉熵(BCE):交叉熵的特例,专门用于二分类任务(如判断是否为垃圾邮件、是否患病)。
Huber 损失:结合 MSE 和 MAE(平均绝对误差)的优势,对 outliers 鲁棒,适用于回归任务中存在异常值的场景。
梯度下降
如何找到损失函数最小的拟合函数是神经网络构建的难点,这需要用到梯度下降算法。
导数 -> 偏导 -> 梯度 -》 通解:固定其他系数,变画1个系数观察个系数变化时,损失函数值的大小变化。
导数原理图:
偏导(梯度)原理图:
梯度是多元函数在某点的偏导数向量,本质是函数在该点 “变化最快的方向” 和 “变化率大小” 的结合,是指导模型参数调整的核心依据。
一、专业定义
梯度(Gradient)是针对多元函数的概念,若函数 f (x₁, x₂, …, xₙ) 存在连续偏导数,则该函数在点 (x₁, x₂, …, xₙ) 处的梯度是一个 n 维向量。向量的每个分量对应函数对单个自变量的偏导数(∂f/∂x₁, ∂f/∂x₂, …, ∂f/∂xₙ),记作 ∇f 或 grad f。其核心属性是:梯度方向是函数值增长最快的方向,梯度的模长是该方向上的最大变化率。
二、通俗解释
梯度就像 “函数的坡度指示牌”:
把多元函数想象成一座山,每个点 (x₁, x₂) 对应山上的一个位置,函数值 f 对应海拔高度;
梯度就是这个位置的 “坡度向量”—— 既指明了 “往哪个方向走,海拔涨得最快”(方向),又告诉了 “每走一步能涨多高”(变化率大小);
在神经网络中,我们要找 “海拔最低的地方”(损失函数最小),所以会沿着梯度的反方向走(下坡最快的方向),这就是梯度下降法的核心逻辑。
比如损失函数 L (ω₁, ω₂) (ω 是模型权重),梯度 ∇L 就会告诉我们:调整 ω₁ 和 ω₂ 的哪个方向能让损失值降得最快,以及调整的效率。

链式求导原理推导:

链式求导原理图: 大齿轮转速/小齿轮转速(斜率即小齿轮速度变化时,大齿轮速度变化的增速) 即为 大齿轮代表的函数对小齿轮代表的函数求导。
那么,知道“第二个齿轮和第一个齿轮的导数F1(比值 )”和“第个三齿轮和第二个齿轮的导数(转速比值)F2”,即可知道“第三个齿轮和第一个齿轮转速的比值为F1 X F2",到此即解释链式求导法则公式的原理/思想。
拟合函数一定是一个复合函数,固定其他系数ki,只对一个k进行变动,通过链式求导,得到 fN(…) 对 x的导数。这就是反向传播法。反向传播即利用链式求导,得出当前以k为自变量,复合函数的损失函数为因变量的函数的偏导数,并通过偏导数表达式、得出只变化k时,使损失函数值最小的k值。即:其他参数ki不变、只有k变化时,拟合函数的损失函数值下降到最低点。之后求对每个k做同样的操作,即可得出判断准确的神经网络(最贴合输入坐标的曲线)
反向传播
其实就描述 链式求导公式 的原理
对抗样本
零、 意在说明神经网络是有未解决的问题的。
一、专业定义
对抗样本(Adversarial Example)是通过精心设计的微小、有针对性的扰动修改原始合法样本后得到的输入。这种扰动通常在人类感官阈值内(如图像像素变化、文本字词微调),不影响人类对样本的正确判断,但会使训练好的神经网络模型(如 CNN、Transformer)产生高置信度的错误输出,核心是利用模型在高维特征空间中的决策边界缺陷。
二、通俗解释
对抗样本就像 “给模型设下的视觉 / 语言陷阱”:
比如一张正确识别为 “猫” 的图片,对部分像素做极其细微的调整(人眼完全看不出变化),模型会突然判定为 “狗”;
再比如一句 “这部电影很好看” 的正面评价,微调个别字词顺序或替换同义虚词(人类仍理解为正面),情感分类模型可能判定为 “负面”。
简单说,对抗样本是 “专门欺骗 AI 的伪装数据”,人类能轻松识破,但模型会被误导。
细微调整:
识别结果:
三、关键特点
扰动微小:添加的修改幅度极小,人类感官(视觉、语言理解)无法察觉,不改变样本的原始语义或内容。
针对性强:扰动是根据具体模型的结构和参数设计的,通常只对特定模型或模型家族有效(也存在跨模型的通用对抗样本)。
错误置信度高:模型对对抗样本的错误预测往往具有高置信度(如 99% 确信是 “狗”),而非模糊判断。
暴露模型缺陷:本质是模型学习到的特征与人类认知的特征不一致,或对高维空间中的微小变化过度敏感。
统计语言模型
核心结论:统计语言模型(SLM)是通过统计概率刻画语言规律的模型,核心是计算一段文本(词序列)出现的概率,本质是用数学概率描述语言的合理性,为 NLP 任务提供底层支撑。
一、专业定义
统计语言模型是基于概率统计理论的语言建模方法,它将文本视为词(或字符)的序列,通过学习语料库中的语言规律,建立概率分布模型。核心目标是计算序列 P (w₁, w₂, …, wₙ)(w₁到 wₙ为连续的词),即给定前序词 w₁到 wₖ的条件下,预测下一个词 wₖ₊₁ 出现的概率 P (wₖ₊₁ | w₁, …, wₖ),从而量化文本的 “语言合理性”。
二、通俗解释
统计语言模型就像 “语言的概率裁判”:
它通过阅读大量文本(语料库),记住词语之间的搭配习惯 —— 比如 “喝” 后面跟着 “水”“饮料” 的概率很高,跟着 “石头” 的概率极低;
当判断一段文本是否 “通顺” 时,它会计算这段词序列出现的总概率,概率越高说明越符合语言习惯,反之则越别扭;
比如 “我在公园散步” 的概率远高于 “我在公园飞翔”,模型会据此判定前者更合理。
简单说,它是模型学习到的 “语言搭配概率表”,能判断词语组合的自然程度。
三、关键特点
数据驱动:完全依赖语料库统计规律,无需人工定义语法规则,语料越丰富,模型对语言的刻画越精准。
概率建模:核心是概率计算,通过条件概率捕捉词语间的依赖关系(如前后词搭配、上下文关联)。
可解释性较强:概率结果能直观反映词语搭配的合理性,比如 P (吃饭 | 我) 远大于 P (吃饭 | 石头),符合人类语言认知。
依赖上下文:预测下一个词时,会结合前序词的信息,上下文越长,预测越精准(但计算复杂度也会上升)。
四、核心模型与发展
n-gram 模型:最经典的统计语言模型,通过假设 “下一个词的概率仅依赖前 n-1 个词” 简化计算(如 unigram 依赖单个词、bigram 依赖前 1 个词、trigram 依赖前 2 个词),结构简单、计算高效,但难以捕捉长距离依赖。
隐马尔可夫模型(HMM):引入隐藏状态刻画语言的深层结构,能更好捕捉序列依赖,常用于词性标注、语音识别等任务。
与现代模型的关联:统计语言模型是后续神经网络语言模型(NNLM)、Transformer 模型的基础,现代模型本质是用神经网络替代传统统计方法,更高效地捕捉长距离依赖和复杂语言规律,但核心目标仍是 “计算文本序列的概率”。
图片存储
计算机存储图片的本质是将图像离散为像素阵列,用数值编码像素的亮度 / 色彩信息,再通过文件格式组织这些数值数据,最终以二进制形式存储在存储介质中。
一、第一步:图像离散化为像素矩阵
任何图片(模拟信号)都会先被 “拆分” 成最小单位 —— 像素,形成规整的像素矩阵:
矩阵的行数和列数就是图片的分辨率(如 1920×1080,代表宽 1920 个像素、高 1080 个像素,总像素数约 207 万);
每个像素对应矩阵中的一个 “单元格”,单元格内存储该位置的亮度或色彩数据,计算机仅通过这些数值还原图像。
比如一张 3×3 的小图片,会被拆分为 3 行 3 列的像素矩阵,共 9 个像素,每个像素对应一个或一组数值。
二、第二步:像素的数值编码(核心环节)
根据图片类型(灰度图、彩色图),像素的编码方式不同,核心是用数值量化视觉信息:
灰度图(单通道):
每个像素仅需 1 个数值表示 “亮度”,范围通常是 0-255(8 位存储,最常用);
0 代表纯黑,255 代表纯白,中间数值(如 128)代表不同深浅的灰色;
存储时,每个像素占用 1 字节(8 位),3×3 的灰度图总数据量为 3×3×1=9 字节。
彩色图(多通道,主流为 RGB):
每个像素用 3 个数值分别表示红(R)、绿(G)、蓝(B)三种基色的强度,每个数值范围 0-255(8 位 / 通道);
比如像素数值(255,0,0)代表纯红,(0,255,0)代表纯绿,(255,255,255)代表纯白,通过三原色混合呈现所有色彩;
存储时,每个像素占用 3 字节(24 位,称为 24 位真彩色),3×3 的 RGB 图总数据量为 3×3×3=27 字节。
带透明度的彩色图(RGBA):
在 RGB 基础上增加 Alpha(A)通道,4 个数值分别对应 R、G、B、A,A 的范围 0-255(0 完全透明,255 完全不透明);
每个像素占用 4 字节,适合需要背景透明的场景(如图标、网页图片)。
三、第三步:数据压缩与文件格式封装
原始像素数值数据量较大(如 1920×1080 的 24 位 RGB 图,原始数据量约 6MB),需通过压缩和格式封装优化存储:
压缩方式:
无损压缩(如 PNG、GIF):不损失像素信息,解压后能完全还原原始图像,适合需要高精度的场景(如设计图、图标);
有损压缩(如 JPG/JPEG):通过丢弃人眼不敏感的像素细节减少数据量,压缩率更高(可将 6MB 图片压缩至几百 KB),但压缩过度会出现锯齿、模糊。
文件格式封装:
不同格式(JPG、PNG、BMP 等)本质是 “数据的组织规则”,除了存储像素数值,还会包含文件头(如分辨率、通道数、压缩方式)、颜色表(部分格式)等辅助信息;
比如 BMP 格式是无压缩的原始格式,数据量最大;JPG 格式会存储压缩算法参数,方便解压时还原图像。
四、第四步:二进制存储
经过编码和压缩的像素数据,最终会被转换为计算机能识别的二进制(0 和 1),存储在硬盘、内存等介质中:
比如灰度值 “255” 对应二进制 “11111111”,RGB 值(255,0,0)对应 “11111111 00000000 00000000”;
读取图片时,计算机会先解析文件格式,解压数据,再将二进制转回像素数值,最后通过像素矩阵还原出视觉图像。

流型假设
流形假设是机器学习领域的基础假设,认为高维数据本质上分布在低维流形上,数据的核心规律和结构由这个低维流形决定,而非高维空间本身。


一、专业定义
流形假设(Manifold Hypothesis)指出,现实世界中的高维数据(如图像、文本、语音的特征向量),并非在高维空间中均匀分布,而是嵌入在一个维度远低于原空间的光滑流形(Manifold)上。流形是局部类似欧氏空间的拓扑空间,高维数据的分布受流形的几何结构约束,学习的核心就是发现这个低维流形并提取其内在结构。
二、通俗解释
流形假设可以用 “高维空间里的低维曲面” 理解:
比如一张 100×100 的 RGB 彩色图,像素层面是 100×100×3=30000 维的高维数据(每个维度对应一个像素的颜色数值);
但这些 30000 维数据并非杂乱无章 —— 所有 “猫” 的图片,其像素数值都会集中在高维空间的一个 “低维曲面”(流形)上,这个曲面的维度远小于 30000;
就像地球表面是 3 维空间中的 2 维流形(球面),我们描述地理位置只需经度、纬度两个维度,无需考虑地球在 3 维空间的整体位置。
简单说,高维数据看似复杂,实则由少数几个核心因素(低维流形的维度)决定,比如图片的核心是 “物体形状、颜色分布”,而非单个像素的随机数值。
三、关键特点
降维核心依据:流形假设是降维算法(如 PCA、t-SNE、自编码器)的理论基础 —— 既然数据分布在低维流形上,就可以通过算法剥离高维空间的冗余信息,保留流形的低维核心结构。
局部平滑性:流形是局部光滑的,意味着流形上相邻的高维数据点,其对应的语义或特征也相近(比如两张相似的猫图片,在高维像素空间中是流形上的相邻点)。
高维冗余性:高维数据的维度多是 “冗余” 的,真正决定数据差异的是低维流形的几何特征(如流形的曲率、距离),而非高维空间的绝对距离。
四、在机器学习中的作用
简化学习难度:无需在高维空间中学习复杂规律,只需聚焦低维流形的结构,大幅降低模型的计算复杂度和过拟合风险。
指导模型设计:CNN、Transformer 等模型的核心逻辑,本质是通过层级结构提取流形上的内在特征(如 CNN 提取图像的边缘、纹理等流形特征)。
解释泛化能力:模型能泛化到新数据,是因为新数据同样分布在同一低维流形上,模型学到的流形结构对新数据依然有效。
比如图像识别中,模型并非记住所有像素组合,而是学习到 “猫”“狗” 等类别对应的低维流形结构,从而能识别未见过的新图片。
去噪函数
去噪函数是通过特定算法模型,识别并抑制 / 去除数据中噪声的函数,核心是保留数据核心有效信息,同时降低干扰信号的影响,适配图像、文本、语音等多类数据场景。
一、专业定义
去噪函数(Denoising Function)是量化并消除数据中冗余干扰信号(噪声) 的映射函数,噪声指与数据核心语义或结构无关的随机 / 异常信号(如图像中的椒盐噪声、文本中的错别字、语音中的背景杂音)。它通过学习数据的正常分布规律或噪声特征,将含噪输入映射为洁净输出,本质是分离 “有效信号” 与 “噪声信号” 的计算过程。
二、通俗解释
去噪函数就像 “数据的清洁工具”:
比如一张老照片有很多白色斑点(椒盐噪声),去噪函数会识别这些与画面内容无关的斑点,将其修复为周围合理的像素值;
再比如一段语音有街道杂音,去噪函数会过滤掉这些无关声波,保留清晰的人声;
简单说,它的作用是 “剔除数据中的‘杂质’”,让数据的核心信息更突出,方便后续处理(如识别、分析)。
三、关键特点
信号分离:核心是区分有效信息与噪声,不破坏数据的原始结构和核心语义(如图像去噪不能模糊物体轮廓,文本去噪不能修改核心含义)。
适配性强:不同数据的噪声类型不同(图像噪声是像素异常、文本噪声是字符错误),需针对性设计去噪逻辑,不存在通用万能的去噪函数。
兼顾效果与效率:既要有效降低噪声(去噪效果),又要避免过度处理(如过度平滑导致图像模糊),同时需平衡计算复杂度(如实时场景需快速去噪)。
学习性(现代去噪):基于机器学习的去噪函数(如自编码器、CNN 去噪模型),能通过含噪数据训练,自主学习噪声特征,去噪效果更优。
四、常见类型与应用场景
图像去噪函数:
传统方法:如中值滤波(去除椒盐噪声)、高斯滤波(去除高斯噪声),通过邻域像素统计计算替换异常像素;
现代方法:基于 CNN(如 DnCNN)、Transformer 的去噪函数,通过深度模型学习图像正常特征,精准修复噪声区域;
应用:老照片修复、监控视频降噪、医学影像去噪(如 CT 图像)。
文本去噪函数:
核心是处理错别字、冗余字符、无关信息(如网页文本中的广告字符);
常见形式:基于词典的纠错(替换错别字)、正则匹配去除特殊字符、语义筛选保留核心内容;
应用:自然语言处理预处理(如文本分类前的去噪)、舆情分析数据清洁。
语音去噪函数:
传统方法:谱减法(扣除噪声的频谱特征)、自适应滤波;
现代方法:基于深度学习的语音增强模型(如 WaveNet、Transformer),分离人声与背景噪声;
应用:通话降噪、语音识别预处理、录音文件优化。
数据去噪函数(通用数值数据):
用于去除数值数据中的异常值(如传感器数据中的突变误差);
常见形式:均值 / 中位数替换、基于统计分布的异常值剔除(如 3σ 原则);
应用:数据分析预处理、传感器数据校准。
扩散生成
(AI生成图片的原理)
扩散生成模型是通过 “逐步加噪破坏→逐步去噪重建” 的对称概率过程,学习数据分布并生成全新样本的生成模型,是 AIGC 的核心技术之一。
一、专业定义
扩散生成模型(Diffusion Generative Model)是一类基于马尔可夫链和概率扩散过程的生成模型。它通过两个对称阶段建模:前向扩散阶段按预设规则向原始数据逐步添加高斯噪声,使其最终转化为随机噪声;反向扩散阶段训练神经网络学习噪声预测与去除规律,从纯噪声出发,逐步逆转前向过程,生成与原始数据分布一致的全新样本。核心是通过学习数据的噪声分布,间接建模目标数据的真实分布,实现高质量样本生成。
二、通俗解释
扩散生成模型就像 “先把拼图打乱再重新拼出全新图案” 的过程:
前向扩散(打乱拼图):从一幅完整的拼图(清晰原始数据,如图像)出发,每次随机交换几块拼图(添加少量噪声),重复上千次后,拼图彻底打乱成一堆碎片(纯随机噪声),这个过程完全固定,不用学习。
反向扩散(重拼拼图):训练一个 “智能拼图手”(神经网络),学习从混乱碎片中还原拼图的规律 —— 它不用直接还原,只需每次判断 “哪几块拼错了”(预测添加的噪声),再把错的拼对(去除噪声)。
生成新样本:训练完成后,给 “智能拼图手” 一堆全新的随机碎片(纯噪声),它按学到的规律逐步拼接,最终生成一幅从未见过的、完整的新拼图(全新数据样本)。
简单说,模型先学会 “怎么把数据搞乱”,再学会 “怎么按规律把乱数据复原成新数据”,本质是通过噪声的 “加” 与 “减” 学习数据的核心特征。
三、常见应用
扩散生成模型已广泛赋能多领域 AIGC 任务,成为内容创作与科学研究的核心工具:
图像生成与编辑:文本生成图像(Stable Diffusion、Midjourney),输入文字描述即可生成对应图像;图像风格迁移(如将照片转为油画风格)、图像修复(老照片翻新、缺失部分补全)、超分辨率重建(低清图转高清图)。
多模态内容生成:文本 - 图像跨模态生成(DALL-E 2)、图像生成文本、语音生成(合成自然语音)、视频生成(逐步拓展到短视频创作)。
长程依赖
长程依赖(Long-Range Dependencies)指在序列数据(文本、语音、时间序列等)中,非相邻的远距元素之间存在的统计依赖或语义关联。这种关联不局限于局部相邻元素,而是跨越多个中间元素的长期关联,模型需要学习并利用这种关联,才能准确理解序列的完整含义或内在规律。
二、通俗解释
长程依赖就像 “一段话中前后呼应的逻辑关系”:
比如句子 “小明今天去了公园,他在那里看到了一只可爱的小猫”,“他” 和 “小明” 隔了两个分句,但二者存在明确指代关系,这就是长程依赖;
再比如股票数据中,某支股票的上涨可能和三个月前的政策调整有关,这种跨时间周期的关联,也是长程依赖;
简单说,它是序列中 “距离远但关系密切” 的元素对,模型能不能捕捉到这种关系,直接影响理解或预测的准确性。
三、模型处理长程依赖的挑战与解决方案
核心挑战:
传统模型(如 RNN、LSTM)处理长序列时,梯度容易消失或爆炸,导致远距离关联的信息无法有效传递;
早期 CNN 依赖局部卷积,难以捕捉超远距离的元素关联,需通过堆叠多层间接传递信息,效率低且效果有限。
主流解决方案:
Transformer 架构:通过自注意力机制(Self-Attention)直接计算序列中任意两个元素的关联,无视距离远近,能高效捕捉长程依赖,是目前处理长程依赖的主流方案;
改进型循环模型:如 GRU、双向 LSTM 通过门控机制缓解梯度问题,增强长距离信息传递能力,但仍不如 Transformer 灵活;
高效注意力变体:如稀疏注意力、线性注意力(如 Mamba 中的状态空间机制),在保留长程依赖捕捉能力的同时,降低计算复杂度,适配超长序列场景。
四、典型应用场景
自然语言处理:机器翻译(如中英文长句翻译需对齐远距离语义)、文本摘要(需整合全文关键信息)、问答系统(答案可能隐藏在文本远距离段落中);
时序预测:长期气象预测、股票价格长期趋势预测(需关联跨周期数据);
语音处理:长语音转文字(需关联前后远距离的语音片段语义);
图像生成:长文本引导的图像生成(需整合文本中远距离的描述信息)。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)