大模型学习笔记

程序员lm

548人浏览 · 2025-01-09 23:44:41

程序员lm · 2025-01-09 23:44:41 发布

个人大模型领域知识学习笔记！！！包括基础入门概念、原理，不定时补充

Transform 详解

https://zhuanlan.zhihu.com/p/338817680

蒸馏技术需要注意点：

别再被“蒸馏”误导！DeepSeek揭秘AI技术的真正潜力与陷阱

1.基础概念

checkPoint:

概念：

Checkpoint 指的是 在训练过程中保存模型当前状态的一个快照，通常包括以下内容：

模型参数（weights 和 biases）
优化器状态（如动量、学习率调度器状态等）
当前训练轮数（epoch）或步数（step）
可能还有训练日志或指标（loss、accuracy 等）

简而言之，它就是 模型训练到某一步的“保存点”。

作用

中断恢复
如果训练因为断电、OOM、程序崩溃等意外中断，可以从最近的 checkpoint 继续训练，而不必从头开始。
模型选择
可以保存多个 checkpoint，选择在验证集上性能最好的 checkpoint 作为最终模型。
实验对比
保存不同训练阶段的 checkpoint，用于对比模型在不同训练轮数下的性能。
微调与迁移学习
checkpoint 可以作为预训练模型的起点，用于后续的微调（Fine-Tuning）。

常见策略

定期保存
- 每训练若干步（step）或若干轮（epoch）保存一次。
性能保存
- 只保存验证集指标最好的 checkpoint（early stopping 时常用）。
全量 vs 增量
- 全量 checkpoint：保存整个模型和优化器状态（占空间大）。
- 增量 checkpoint：只保存模型参数，恢复训练时需要手动配置优化器。

Full Fine-tuning 和 LoRA Fine-tuning

Full：把模型里几乎所有参数都拿来训练，效果上限高但成本大。
LoRA：冻结原模型参数，只训练一小部分新增的低秩参数，效果/成本比非常好，更适合大多数落地场景。

	Full Fine-tuning（全量微调）	Low-Rank Adaptation（低秩适应）
原理	更新模型的所有参数 ✅ 更新每一层的权重 ✅ 模型完全适应新任务 ❌ 计算资源消耗大 ❌ 需要更多显存 ❌ 容易过拟合小数据集 ❌ 每个任务需要保存完整模型副本	只更新少量低秩矩阵参数，冻结原模型权重： ✅ 参数量极小（通常<1%） ✅ 显存占用低 ✅ 训练速度快 ✅ 减少过拟合风险 ✅ 多个任务只需保存小的 LoRA 适配器 ✅ 可插拔，灵活切换不同任务
适用场景	有充足的 GPU 资源数据集较大且质量高需要模型深度适应特定领域（如从通用到医疗/法律）对性能要求极致	资源有限（单卡训练）快速迭代实验多任务场景小数据集微调（<1 万条）

Full Fine-tuning（全量微调）

Low-Rank Adaptation（低秩适应）

原理

更新模型的所有参数

✅ 更新每一层的权重
✅ 模型完全适应新任务
❌ 计算资源消耗大
❌ 需要更多显存
❌ 容易过拟合小数据集
❌ 每个任务需要保存完整模型副本

只更新少量低秩矩阵参数，冻结原模型权重：

✅ 参数量极小（通常<1%）
✅ 显存占用低
✅ 训练速度快
✅ 减少过拟合风险
✅ 多个任务只需保存小的 LoRA 适配器
✅ 可插拔，灵活切换不同任务

适用场景

有充足的 GPU 资源
数据集较大且质量高
需要模型深度适应特定领域（如从通用到医疗/法律）
对性能要求极致

资源有限（单卡训练）
快速迭代实验
多任务场景
小数据集微调（<1 万条）

learning rate（学习率调度器）

constant：学习率一直不变
linear：学习率按直线下降
cosine：学习率按余弦曲线平滑下降，后期更柔和
polynomial：按多项式下降，下降快慢由 power 控制

核心区别：学习率下降的节奏不同

选择：

SFT / 指令微调：cosine 和 linear 最常见
小步快跑实验：constant 也有人用
想精细控制衰减形状：才会考虑 polynomial

详细解释：

constant：

训练开始是什么学习率，训练结束还是什么学习率。

特点

简单直接
前期收敛快
后期不容易“稳稳收尾”

优点

配置最省心
训练 step 不多时很好用
小规模 LoRA 微调时经常能跑出还不错的结果

缺点

到训练后期，学习率还比较大，容易在最优点附近来回震荡
不如带 decay 的 scheduler 稳

适合场景

训练步数不多
快速试参
LoRA、小数据集、短训练

linear

学习率随着训练逐步线性下降。

特点

非常常见
容易理解
后期学习率会越来越小，训练更稳

优点

简单稳妥
在很多 NLP 微调里是默认选项
对大多数任务都不容易出大错

缺点

有时下降得有点“死板”
后期可能衰减得过快，导致模型后面学得太慢

适合场景

通用 SFT
训练流程标准化
想要一个不容易踩坑的默认方案

cosine

学习率按余弦曲线衰减。，开始降得没那么猛，中后期比较平滑，最后慢慢贴近 0。

更准确地说，它比 linear 更“圆滑”。

特点

前中期下降比较自然
后期会更柔和地收尾
常被认为比 linear 更适合长一点的训练

优点

训练后期更平滑
常常能带来更好的收敛体验
对大模型微调很常用

缺点

相比 linear，没有绝对碾压，只是很多时候更顺
如果训练 step 很少，优势不一定明显

适合场景

中长训练
希望后期更稳
大模型 SFT、LoRA 微调常用默认项

polynomial

如果 power = 1，那其实就接近 linear

如果 power > 1，前期下降更慢，后期掉得更快

如果 power < 1，前期掉得更快，后期更平缓

特点

非常灵活
可以手动控制衰减节奏
但调参成本更高

优点

能做更细粒度控制
在特定训练策略里很好用

缺点

不如 cosine / linear 直观
需要多一个 power 参数
大多数业务微调没必要专门用它

适合场景

你很清楚自己想要什么衰减形状
有比较成熟的训练经验
做实验研究而不是普通业务落地

warmup ratio(预热比例)

预热比例（warmup ratio）指的是训练开始阶段，学习率从 0 慢慢升到目标学习率的那一段时间占总训练步数的比例。

为什么要 warmup？
大模型刚开始训练时，如果直接使用全学习率，梯度更新可能太大，容易破坏模型原有知识或导致训练不稳定。
预热做什么？
让学习率从 0 平滑上升到设定的最大学习率，就像“先慢慢加速，再全速跑”。
设置太小：学习率上升太快，可能训练不稳
设置太大：前期学习率太低，训练收敛慢

总训练步数：1000
warmup_ratio = 0.05
那么前 1000 × 0.05 = 50 步是 warmup
这 50 步中，学习率从 0 平滑升到最大值
50 步之后，学习率开始按照你选择的 scheduler（linear、cosine、polynomial 等）下降或保持

常用经验值：

LoRA / SFT 微调：0.03 ~ 0.1 比较常用（3%~10% 的总步数）
大模型预训练：可能更大，0.1 ~ 0.2
小数据集或短训练：可以适当降低，比如 0.01

这里是包含 warmup 的三种学习率调度器对比图：

constant + warmup：前期学习率从 0 升到目标值，然后保持不变
linear + warmup：前期学习率升到目标值后，按线性方式下降
cosine + warmup：前期学习率升到目标值后，按余弦曲线平滑下降

从图上可以直观看到，warmup 让训练前期更平滑，避免一开始梯度过大，而不同 scheduler 决定了训练中后期的下降节奏。

Scaling Law

Scaling Law（规模定律或缩放定律）在机器学习领域，特别是针对大型语言模型，指的是模型性能与其规模、训练数据集大小及计算资源间存在的可预测关系。这种关系体现了随着规模、数据和资源的增长，模型性能会按幂律提升，即“大力出奇迹”的效应。

一、定义与背景

Scaling Law是机器学习领域的一个重要概念，它揭示了模型性能与多个关键因素之间的内在联系。在大型语言模型等复杂机器学习任务中，这种关系尤为显著。随着技术的不断进步和数据量的激增，研究人员发现，通过简单地增加模型的规模、训练数据集的大小以及投入的计算资源，可以在一定程度上预测并提升模型的性能。

二、关键因素

模型规模：通常指模型中的参数数量。在大型语言模型中，参数数量的增加意味着模型能够学习到更多的特征和模式，从而提高其泛化能力和性能。
训练数据集大小：数据集的大小直接影响了模型能够接触到的信息量和多样性。更大的数据集通常能够提供更全面的训练样本，帮助模型更好地理解和泛化到未见过的数据。
计算资源：包括用于训练模型的计算能力和存储资源。随着计算资源的增加，模型可以在更短的时间内完成更多的训练迭代，从而加速性能的提升。

三、性能提升机制

Scaling Law所描述的性能提升并不是线性的，而是遵循幂律关系。这意味着，当上述关键因素以一定比例增加时，模型性能的提升可能会远超这个比例。这种非线性的性能提升机制是机器学习领域的一个重要发现，它为我们优化模型性能提供了有力的指导。

四、实际应用与意义

在实际应用中，Scaling Law为机器学习模型的研发和优化提供了重要的参考依据。通过合理地调整模型规模、数据集大小和计算资源，我们可以在有限的资源下实现模型性能的最大化。同时，Scaling Law也揭示了机器学习领域“大力出奇迹”的规律，即在资源充足的情况下，通过不断地增加数据量、模型参数和计算资源，我们可以不断地提升模型的最终性能。

综上所述，Scaling Law是机器学习领域的一个重要概念，它揭示了模型性能与规模、数据集大小和计算资源之间的可预测关系，为我们优化模型性能提供了有力的指导。

强化学习：

深度长文｜一文读懂多模态大模型：强化学习技术全面解读 SFT、RLHF、RLAIF、DPO

强化学习（RL）是机器学习中的一个关键方法，关注智能体如何与环境互动以最大化累积奖励。与依赖标注数据的监督学习和在未标注数据中发现模式的无监督学习不同，RL强调通过试错获得直接反馈的学习方式。

基本定义

在深入探讨训练过程之前，首先介绍一些相关术语：

智能体：训练来做正确决策的实体。在这个例子中，目标是训练机器人做出移动决策，所以机器人就是智能体。

环境：环境是智能体与之互动的外部系统。在本例中，随着训练过的机器人（智能体）在网格内移动，网格就充当了环境。

状态：代表智能体在每个时间 t 的位置。在起始时刻，即时间t0，机器人（智能体）位于左下角，因此时间t0的状态是左下角，由坐标（0,0）表示。

动作：动作代表智能体在每个时间t在环境中可用的可能选择。例如，在开始时，即时间t0，机器人（智能体）可以选择向右或向上移动，使得这两个动作在t0时对智能体可用。

奖励：由环境根据智能体在每个时间 t 采取的动作提供的信号或反馈。例如，在时间 t0，机器人（智能体）向右移动将获得+5分的奖励，向上移动则会被扣除-1分的惩罚。

策略：一组决策策略，帮助智能体在每个时间 t 选择一个动作。在实践中，在时间t0，策略代表一种概率分布，指导机器人（Agent）向右或向上移动，以最大化其累积奖励。

退火：

在大模型训练中，“退火”（annealing）的含义与优化过程的学习率调整策略密切相关。这一概念借鉴了物理学中的退火思想，即通过**逐步降低系统的“温度”**（类比学习率）来帮助模型更稳定地收敛到最优解。

通俗示例：
假设训练模型像铁匠锻造一把刀。铁匠会先用高温加热金属使其快速塑形（类似训练初期使用较高学习率，快速调整参数），然后逐步降低温度（逐步减小学习率），让金属结构缓慢稳定（模型参数精细化调整）。如果一开始就用低温，金属难以塑形；如果一直高温，最终刀刃可能脆化（模型震荡或无法收敛）。

技术实现：

初始阶段：使用较高学习率，让模型快速探索参数空间，跳过局部最优点；
后期阶段：逐步降低学习率，使参数更新更精细，最终稳定到全局最优附近。

这一策略能有效平衡训练速度与稳定性，避免模型陷入次优解或震荡发散。

模型偏好优化方法：

https://zhuanlan.zhihu.com/p/852881331 TDPO 、DPO

TDPO

Token-level Direct Preference Optimization（TDPO，Token级直接偏好优化）

是一种改进语言模型对齐人类偏好的方法。其核心思想是在生成文本的每个token（如词或字）级别直接优化模型策略，而非传统方法中仅关注完整答案的整体偏好。名称中的“Token-level”强调逐token优化，“Direct Preference Optimization”指直接利用人类偏好数据调整模型输出。

原理简析

与传统方法的区别：
- 传统偏好优化（如DPO）在完整答案的序列级别计算偏好，可能忽略中间token的偏差。
- TDPO通过引入前向KL散度约束，在每个token生成时直接调整策略，确保每一步都更贴近人类偏好，同时避免生成结果多样性下降。
技术实现：
- 将Bradley-Terry偏好模型转换为token级优势函数，动态评估每个token的生成质量。
- 通过数学推导建立token级优化目标，直接映射偏好到策略，无需额外训练奖励模型。

假设要求模型生成“童话故事结局”：

传统方法：若生成结局“公主变成青蛙”，但人类偏好“青蛙变成公主”，模型仅整体调整结局。
TDPO方法：在生成每个词（如“公主”“变成”“青蛙”）时，实时对比人类偏好数据，修正每一步的生成方向。例如，当模型输出“变成”时，TDPO会参考人类更倾向于“青蛙→公主”的因果关系，提前调整后续token的概率分布，避免逻辑矛盾。

PPO

Proximal Policy Optimization，近端策略优化是一种广泛使用的强化学习算法，尤其适用于对 LLMs 进行微调，其核心目标是通过**限制策略更新的幅度**来稳定训练过程，同时最大化累积奖励。名称中的"Proximal"（近端）强调在策略优化时保持新旧策略的接近性，避免破坏性更新。

原理

策略梯度基础：PPO属于策略梯度方法，直接优化策略（即模型行为），通过调整策略参数使期望回报最大化。
截断代理目标函数：PPO引入截断机制，限制新策略与旧策略的差异范围。具体来说，通过调整目标函数中的比例因子，当新旧策略差异超过阈值时，梯度更新会被截断，防止策略突变。
稳定性与效率：相比传统方法（如TRPO），PPO简化了实现复杂度，在保持高训练稳定性的同时提升了计算效率，成为OpenAI等机构广泛采用的默认算法。

通俗示例

假设训练机器人学走路：

传统方法：若机器人某次尝试迈大步摔倒，算法可能直接大幅调整策略，导致后续动作完全失控。
PPO方法：限制每次策略调整的幅度，例如只允许步长微调。即使某次尝试失败，策略更新幅度被约束，机器人仍能稳定探索其他步态，逐步优化行走效果。

这一机制平衡了探索（尝试新动作）与利用（保持有效动作），确保训练过程平稳高效

GRPO:

详解DeepSeek-R1核心强化学习算法：GRPO

Group Relative Policy Optimization（GRPO，组相对策略优化）是一种强化学习算法，其核心思想是通过**组内成员的相对表现动态调整策略**，取代传统方法中对额外价值函数模型或人类标注数据的依赖。

名称含义

"Group Relative"（组内相对）：通过比较同一组内智能体的行为效果（如奖励差异）来生成优化信号，而非依赖外部评价模型。
"Policy Optimization"（策略优化）：基于组内对比结果直接优化策略参数，提升任务表现。

原理

去中心化评价：取消传统PPO中的价值函数模型（Critic），改为利用组内成员的相对奖励值作为基线。例如，若组内成员A的奖励比成员B高，则A的策略更新幅度更大。
自动偏好学习：无需人类标注的偏好数据，通过组内行为结果的机器自动评分实现策略对齐。
协作优化：适用于多智能体场景，通过调整组内成员间的策略差异，提升整体协作效率。

通俗示例

假设训练一组机器人协作搬运货物：

传统方法（如PPO）：每个机器人需依赖中央控制器（Critic）评估动作价值，计算复杂度高且依赖额外模型。
GRPO方法：机器人仅比较组内成员的动作效果。例如，机器人A尝试新路径缩短了时间，其他成员通过对比其奖励值，自动调整自身路径选择策略，无需中央控制器介入。

信息缺失：GRPO的具体数学推导及与多智能体强化学习（MARL）框架的差异未在上下文中详细说明。

DPO:

直接偏好优化（DPO）,虽然强化学习通过 RLHF 或 RLAIF 是有效的，但通常因RL算法的挑战以及需要精确训练的奖励模型而复杂化。

DPO，通过直接使用人类偏好数据来微调大语言模型（LLMs），从而绕过了奖励模型。DPO将目标从奖励最大化重新定义为偏好优化，并提供了一种直接且可能更稳健的途径，用于将LLM输出与人类期望对齐。

RLHF:

基于人类反馈的强化学习（RLHF）

RLHF 是一种训练方法，它将强化学习（RL）与人类反馈相结合，以使大语言模型（LLMs）与人类的价值观、偏好和期望保持一致。

RLHF 主要包括两个组成部分：

（1）收集人类反馈来训练奖励模型，其中人类评估者通过对 LLM 输出的质量、相关性等因素进行评分或排名，提供反馈。然后使用这些反馈来训练一个奖励模型，该模型预测输出的质量，并在强化学习过程中作为奖励函数；

（2）使用人类反馈进行偏好优化，其中训练好的奖励模型指导LLM输出的优化，以最大化预测奖励，使LLM的行为与人类偏好保持一致。

RLAIF:

基于AI反馈的强化学习（RLAIF）

RLAIF方法利用AI系统提供对 LLMs 输出的反馈，作为RL的替代或补充。具体方法包括：（1）通过蒸馏AI反馈来训练奖励模型；（2）将LLMs作为奖励函数；（3）自奖励机制。

例如，Magpie 介绍一种自我合成方法，该方法利用对齐的 LLMs 的自回归特性。通过使用预定义模板作为提示，模型自主生成用户查询及相应的响应，无需手动干预或初始种子问题。

具体来说，如下图所示，使用对齐的LLMs（例如Llama-3-Instruct模型）合成400万个指令-响应对，随后过滤数据集保留30万个高质量对，被用来微调Llama-3-8B-Base模型。值得注意的是，经过微调的模型表现与官方的Llama-3-8B-Instruct模型相当，后者通过监督式微调和带有人类反馈的强化学习在1000万个示例上进行训练。此外，使用Magpie微调的模型在诸如AlpacaEval之类的对齐基准测试中表现优异，超越了其他开放数据集上训练的模型和偏好优化方法。

模型评估的非确定性是什么意思

模型评估的非确定性是指在对模型进行评估的过程中，由于各种因素的影响，评估结果无法准确预测、存在一定的随机性和不确定性，具体表现如下：

数据因素

数据的多样性和变化性：不同的数据集可能在内容、分布、规模等方面存在差异，即使是对同一模型进行评估，使用不同的数据集也可能得到不同的结果。例如，在图像识别模型评估中，使用不同来源、不同场景下的图像数据集，模型的准确率可能会有所波动。
数据噪声和误差：实际数据中往往存在噪声，即数据的不准确或不一致性，这会干扰模型的评估。比如在医学数据中，测量误差、记录错误等噪声可能导致模型对疾病的诊断准确率在不同的评估中出现变化。

模型因素

模型结构和复杂度：不同的模型结构对数据的拟合能力和泛化能力不同，复杂的模型可能过度拟合数据，在训练集上表现很好，但在测试集或实际应用中的评估结果不稳定；而简单的模型可能无法充分捕捉数据的特征，导致评估结果不佳且波动较大。例如，神经网络中隐藏层的数量、神经元的连接方式等结构差异，会使模型在相同任务的评估中表现出不同的性能。
模型参数的不确定性：模型的参数通常是通过训练数据进行估计和优化的，但由于数据的局限性和优化算法的特性，参数的估计值可能存在不确定性。例如，在使用梯度下降算法进行参数优化时，可能会收敛到局部最优解而不是全局最优解，从而导致模型在不同的训练和评估中性能不稳定。

评估方法和指标

评估指标的局限性：不同的评估指标只能反映模型性能的某些方面，无法全面准确地衡量模型的整体质量。例如，准确率指标在类别不平衡的数据集上可能会产生误导，一个准确率很高的模型可能在少数类别的预测上表现很差，而这在实际应用中可能是至关重要的。
评估方法的不稳定性：某些评估方法可能对模型的微小变化或数据的微小扰动敏感，导致评估结果不稳定。例如，在使用交叉验证方法时，不同的划分方式可能会使模型在不同的折叠中表现出不同的性能，从而影响最终的评估结果。

环境和运行时因素

计算环境的差异：不同的计算设备、软件库版本、并行计算设置等可能导致模型在训练和评估过程中的数值计算结果略有不同，从而影响评估结果的确定性。例如，在使用 GPU 和 CPU 进行模型训练和评估时，由于计算精度和并行计算的差异，可能会得到不同的模型性能指标。
运行时的随机因素：有些模型在运行时会涉及到随机初始化、随机采样等操作，这些随机因素会导致模型在不同的运行中产生不同的输出，进而影响评估结果的稳定性。例如，在使用随机森林模型进行分类时，决策树的随机初始化和随机特征选择会使模型在每次运行时的预测结果有所不同。

模型评估的非确定性具体会对模型产生哪些影响？

模型性能评估不准确
- 指标波动：由于非确定性因素，模型评估指标（如准确率、精确率、召回率、F1 值、均方误差等）会出现波动。例如，在一个文本分类任务中，使用不同批次的数据进行评估，准确率可能在 80% - 90% 之间变化，这使得很难确定模型的真实性能水平。
- 误导模型选择：在比较多个模型时，非确定性可能导致错误的模型选择。假设在评估两个图像识别模型 A 和 B 时，由于评估的非确定性，模型 A 在某次评估中表现优于 B，但在其他评估中可能相反。如果仅仅基于一次评估结果就选择模型 A，可能会错过实际性能更好的模型 B。
模型的信任度降低
- 应用场景受限：在一些对可靠性要求极高的应用场景（如医疗诊断、自动驾驶等），模型评估的非确定性会使人们对模型的信任度大打折扣。例如，一个医疗诊断模型如果其评估结果不稳定，医生很难放心地使用它来辅助诊断疾病，因为不确定模型在实际应用中的准确性。
- 用户接受度下降：对于普通用户来说，不稳定的评估结果也会降低他们对模型的接受度。比如一个智能推荐系统，推荐结果时而精准时而偏差很大，用户会对该系统的质量产生怀疑，进而减少使用频率。
模型优化方向不明确
- 超参数调整困难：非确定性使得在调整模型超参数（如神经网络中的学习率、隐藏层神经元数量等）时难以确定最优方向。例如，当改变学习率来优化模型时，由于评估结果的不确定性，很难判断学习率的改变是使模型性能提升还是下降，从而无法有效地进行超参数优化。
- 架构改进复杂：在尝试改进模型架构（如增加层数、改变卷积核大小等）时，评估的非确定性会掩盖架构改进的真实效果。例如，在对一个自然语言处理模型进行架构改进后，由于评估结果的波动，很难确定这种改进是否真正提升了模型的性能，增加了寻找最佳架构的难度。
模型的泛化能力评估困难
- 过拟合和欠拟合判断模糊：非确定性使得判断模型是过拟合还是欠拟合变得复杂。例如，在训练集和验证集上评估模型时，由于评估结果的波动，可能会错误地判断模型是否已经过拟合。一个模型在某次评估中看起来在验证集上性能下降（好像过拟合），但在另一次评估中又可能恢复正常，导致难以准确判断是否需要采取措施防止过拟合。
- 新数据性能预测不准：难以准确评估模型在新数据上的泛化性能。因为评估的非确定性，很难根据现有评估结果预测模型在未来未见过的数据上的表现，这对于模型的实际部署和应用是一个很大的问题。

关于超参温度的介绍：

https://blog.csdn.net/dongtuoc/article/details/135005055?spm=ata.21736010.0.0.a6857536xCs9f8

如何应对模型评估的非确定性？

数据处理方面
- 数据扩充与清洗
  - 扩充数据多样性：通过数据扩充技术增加数据的多样性，减少数据因素导致的非确定性。例如，在图像领域，可以对图像进行旋转、翻转、缩放、添加噪声等操作来扩充数据集。在自然语言处理领域，可以通过同义词替换、句子重排等方式增加文本数据的多样性。这样能使模型在更广泛的数据分布上进行训练和评估，降低评估结果对特定数据的依赖。
  - 清洗数据噪声：仔细检查和清理数据中的噪声和错误。对于数值型数据，可以使用统计方法识别和修正异常值；对于文本数据，要检查拼写错误、语法错误等。例如，在医疗数据集中，通过专业人员审核来纠正错误的诊断记录或测量数据，确保模型评估基于高质量的数据。
- 数据采样策略
  - 分层采样：当数据存在类别不平衡问题时，采用分层采样的方法。比如在一个疾病诊断数据集中，患病和未患病的样本数量差异很大，分层采样可以保证在训练集、验证集和测试集中各类别的比例相对稳定，从而使模型评估更加稳定和可靠。
  - 多次随机采样：对数据进行多次随机采样，然后分别进行评估，最后综合分析评估结果。例如，在划分训练集、验证集和测试集时，进行多次不同的随机划分，计算每次划分后的模型评估指标，取平均值或中位数来减少单次采样带来的不确定性。
模型改进方面
- 集成模型
  - 构建模型集成：使用集成学习方法，如随机森林、梯度提升树、集成神经网络等。这些方法将多个基模型组合在一起，基模型的多样性可以降低模型评估的非确定性。例如，随机森林通过构建多个决策树，并综合它们的预测结果来进行分类或回归，每个决策树的随机性（如随机选择特征进行划分）使得集成模型对数据的变化更加鲁棒。
  - 模型融合策略：除了传统的集成学习方法，还可以采用模型融合策略。例如，将不同架构的模型（如卷积神经网络和循环神经网络）在不同阶段的输出进行融合，或者对多个预训练模型的输出进行加权组合，这样可以综合不同模型的优势，减少单个模型评估的不确定性。
- 模型简化与正则化
  - 简化模型结构：避免过度复杂的模型结构，因为复杂模型更容易受到数据噪声和过拟合的影响，从而导致评估的非确定性增加。可以通过减少神经网络的层数、神经元数量或者决策树的深度等方式来简化模型。例如，在构建一个简单的线性回归模型时，适当减少特征数量，使模型更易于理解和评估。
  - 正则化方法：应用正则化技术，如 L1 和 L2 正则化、Dropout（在神经网络中）等。正则化可以防止模型过拟合，使模型在不同数据上的评估结果更加稳定。例如，在训练神经网络时，Dropout 会在每次训练迭代中随机丢弃一些神经元，增加模型的鲁棒性，减少对特定神经元连接的依赖，从而降低评估的不确定性。
评估方法优化方面
- 多指标评估
  - 综合多个评估指标：不依赖单一的评估指标，而是综合考虑多个指标来评估模型。例如，在分类任务中，同时考虑准确率、精确率、召回率、F1 值等指标，从不同角度衡量模型性能。如果一个模型在准确率上表现出不确定性，但在召回率和 F1 值上相对稳定，那么可以更全面地了解模型的真实性能。
  - 根据应用场景选择关键指标：根据模型的具体应用场景确定关键的评估指标。例如，在垃圾邮件过滤系统中，更关注召回率，因为尽量减少漏判垃圾邮件是关键；而在信息检索系统中，可能更关注精确率。这样可以有针对性地应对评估的非确定性，重点关注对应用场景最重要的指标稳定性。
- 交叉验证与重复实验
  - 交叉验证技术：采用交叉验证方法，如 k - fold 交叉验证（将数据分成 k 份，每次用 k - 1 份训练，1 份验证，循环 k 次）。这样可以充分利用数据，减少单次划分数据带来的评估不确定性。例如，在一个小规模数据集上，通过 10 - fold 交叉验证，可以得到更稳定的模型评估结果，比简单地划分一次训练集和测试集更可靠。
  - 重复实验设计：对模型评估进行多次重复实验，每次实验都重新初始化模型参数、重新划分数据等操作。例如，进行 10 次独立的模型训练和评估，记录每次的评估指标，然后通过统计分析（如计算平均值、标准差等）来确定模型性能的范围和稳定性，从而更好地应对评估的非确定性。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

RT-DETR最新创新改进系列：从YOLO26到RT-DETR的无缝迁移，先搭好基线实验底座，AIFI与RTDETRDecoder协同建模，速度、精度、消融一文理清！【基线先行，改进有据】

本文为 RTDETR 改进系列纯净发布稿，写法采用模块化技术博文形式：先讲痛点，再讲结构，再给配置、训练方式、实验表格和注意事项。全文仅保留技术正文，便于直接发布。摘要本文围绕 RTDETRl 基线展开。该版本属于基线配置方向，目标是在 RTDETR 端到端检测框架中完成可复现、可对照、可训练的结构设计。相比只给模型文件，本文更关注为什么这样改、改在什么位置、如何训练、如何做消融，以及实

AtomGit开源社区

DeepSeek V4 与 V3、GPT-4o、Claude 3.5 模型的真实表现

无论是复杂问题的解答，还是创意内容的生成，都能精准把握用户需求，提供高质量的输出。DeepSeek V4不仅是技术的典范，更是未来人工智能发展的风向标,接下来我将从：代码生成、逻辑推理、数学解题、长文本理解、多模态识别等维度，横向对比 DeepSeek V4 与 V3、GPT-4o、Claude 3.5 模型的真实表现。GPT-4o在表格数据提取上更精准，V4则擅长恢复破损文档的代码缩进结构。在真