参数高效微调(PEFT)保姆级教程:小白也能轻松玩转大模型微调并收藏起来学习!
本文详细介绍了11种参数高效微调(PEFT)方法,包括LoRA、QLoRA、适配器调整等,并对比了它们的优缺点和适用场景。此外,还介绍了基于偏好对齐的微调方法(RLHF系列)和其他方向的微调技术,如混合专家(MoE)和量化技术。最后,探讨了最新前沿方向,如Online DPO、MobiFe、PiSSA/LoRA-GA和FLoRA/ReLoRA。对于想要在大模型微调领域入门或深入了解的开发者来说,本文提供了全面且实用的指导。

一、参数高效微调(PEFT)方法
常用微调方法对比:
| 微调方法 | 核心思想 | 主要特点 / 优势 | 适用场景 / 备注 |
|---|---|---|---|
| LoRA | 在原始权重矩阵旁引入两个低秩矩阵(A和B),通过训练这两个小矩阵来近似权重的更新量。 | 参数效率高,不增加推理延迟(可将低秩矩阵合并回原权重),显著降低训练参数量和显存占用。 | 适用于大多数场景,尤其是资源有限时;与QLoRA结合可进一步压缩显存。 |
| QLoRA | 在LoRA的基础上,将预训练模型量化为4-bit精度(如NF4格式),再进行低秩适配器训练。 | 极大降低显存占用(例如33B模型可在24GB显卡上训练),同时保持接近全量微调的性能。 | 资源极度受限的场景,需要在单卡上微调数十亿甚至百亿参数级模型。 |
| 适配器调整 | 在Transformer的每个层或选定层之间插入小型神经网络模块(适配器),微调时只更新适配器参数。 | 保持原模型参数不变,通过插入可训练模块实现任务适配,模块化程度高,易于切换任务。 | 多任务学习场景,或需要为不同任务保留独立、轻量模块时。 |
| 前缀调整 | 在输入序列前添加一组连续可微的“虚拟”前缀向量,训练时仅优化这些前缀参数。 | 不修改模型内部权重,为不同任务保存独立前缀即可,存储成本低;前缀作为上下文直接影响模型行为。 | 生成类任务,或需要为每个任务保存极轻量参数(一个前缀)的场景。 |
| 提示调整 | 在输入层添加少量可训练的连续提示向量(软提示),训练时只更新这些提示嵌入。 | 参数极简,通常只添加几个或几十个可训练向量;在冻结原模型的情况下,通过提示引导模型输出。 | 分类、简单文本理解等任务,追求极致的参数效率。 |
| P-Tuning (基于提示的微调) | 使用一个LSTM模型作为提示编码器,动态生成输入层的虚拟标记嵌入。 | 通过LSTM捕捉上下文依赖,生成的提示更灵活、适应性强;能处理更复杂的任务。 | 需要细粒度控制或上下文理解较复杂的任务(如序列标注),但计算量相对更高。 |
| P-Tuning v2 | 在P-Tuning基础上,将连续提示扩展到模型的多层(每一层都添加独立的可训练提示)。 | 增加了可训练参数量,提升了在复杂NLU任务和较小模型上的表现;解决了深层模型中提示影响不稳定的问题。 | 复杂的自然语言理解任务,或使用中小规模基座模型时。 |
| BitFit | 只微调模型中的偏置项(bias terms)和归一化层的参数,冻结所有权重矩阵。 | 参数效率极高,更新的参数通常不到模型总量的0.1%,实现极其简单。 | 选择式方法 |
| Diff Pruning | 通过一个可训练的掩码(mask)来动态决定在训练过程中应该更新哪些权重。 | 更灵活,但引入了额外的计算开销。 | 选择式方法 |
| DoRA | 将LoRA进一步分解为方向和大小两个分量分别进行低秩适应,可以看作是LoRA的改进变体。 | 在LoRA基础上提升了微调效果和稳定性,参数效率与LoRA相当。 | 重参数化方法 |
| MoRA | 提出“高秩更新”的概念,通过引入更复杂的结构来实现比LoRA更高秩的权重更新。 | 在需要更大灵活性的复杂任务上,可能取得比LoRA更好的效果。 | 重参数化方法 |
📊 各微调方法优缺点补充表
| 微调方法 | 缺点 | Transformers 支持情况 |
|---|---|---|
| LoRA | 1. 谱学习能力受限:更新矩阵的奇异值远低于原始权重,难以彻底遗忘预训练中的不良模式(如后门攻击)。 2. 低秩瓶颈:秩 r 限制了它能学习的“知识量”,在复杂任务上可能效果不如全参数微调。 3. 性能与秩的权衡:需要手动调优 r 值,在效果和效率间做取舍。 |
✅ 完美支持。通过 peft 库中的 LoraConfig 实现,是 Hugging Face 生态中最成熟、应用最广的 PEFT 方法。 |
| QLoRA | 1. 实现复杂:涉及 4-bit 量化(NF4)、双量化和分页优化器,配置比 LoRA 复杂。 2. 精度损失风险:虽然量化设计精巧,但相比全精度训练,仍可能带来微小的性能损失。 3. 推理需额外处理:基座模型是量化的,部署时需确保环境支持,或合并为完整精度。 | ✅ 完美支持。peft 库配合 bitsandbytes 库可直接调用,是 Hugging Face 官方推荐的超大模型微调方案。 |
| 适配器调整 | 1. 推理延迟增加:引入额外模块会略微增加前向传播的计算量和推理延迟。 2. 生成任务效果稍逊:在摘要、对话等生成任务上,效果提升往往不如 LoRA 明显。 3. 架构侵入性:需修改模型结构插入 Adapter 层。 | ✅ 良好支持。peft 库原生支持 AdapterConfig,Hugging Face 的 Transformers 模型兼容此方法。 |
| 前缀调整 | 1. 占用输入长度:可训练前缀会占用模型的上下文长度,减少处理有效输入的空间。 2. 训练稳定性较低:优化连续的虚拟 token 比微调模型参数更难,训练过程可能不够稳定。 3. 性能表现波动:在部分任务上性能不及 LoRA。 | ✅ 良好支持。peft 库中的 PrefixTuningConfig 提供了标准实现。 |
| 提示调整 | 1. 任务容量有限:仅通过输入层少量向量引导模型,对于复杂任务的表达能力有限。 2. 效果不稳定:对初始化超参数敏感,不同随机种子下效果差异可能较大。 3. 受模型规模影响:在较小模型(<10B)上效果通常不如微调,主要适用于超大模型。 | ✅ 完美支持。peft 库中的 PromptTuningConfig 提供标准实现,是入门最简单的 PEFT 方法之一。 |
| P-Tuning | 1. 表征能力受限:其提示编码器(LSTM)的设计导致处理复杂数据分布时,不同类别的样本表征可能难以有效分离。 2. 计算开销增加:引入了 LSTM 提示编码器,增加了少量额外参数和计算量。 3. 对数据质量敏感:在数据增强或改动较大时,性能可能显著下降。 | ✅ 良好支持。peft 库通过 PromptEncoderConfig 支持此方法,在文本分类等 NLU 任务上应用广泛。 |
| P-Tuning v2 | 1. 参数量相对增加:相比 P-Tuning,在多层添加提示显著增加了可训练参数量。 2. 对模型架构依赖:在不同 Transformer 层插入连续提示的效果差异较大,需针对性调试。 3. 小模型上优势不明显:在较小规模模型上,性能提升可能不如直接使用 LoRA。 | ✅ 良好支持。peft 库的 PrefixTuningConfig 实际上常被用于实现 P-Tuning v2 的多层提示插入。 |
| BitFit | 1. 效果上限较低:仅训练偏置项,对模型行为的调整能力非常有限,在复杂任务上效果远不如 LoRA。 2. 适用任务局限:主要用于相对简单的任务或作为快速基线,不适合需要大幅调整模型的场景。 | ✅ 原生支持。虽无专用配置类,但通过设置 requires_grad = False 冻结所有权重,只解冻 bias 参数即可轻松实现。 |
| Diff Pruning | 1. 计算开销较大:训练时需同时存储原始权重和可学习的掩码(mask),显存占用比 LoRA 高。 2. 实现复杂:相比 LoRA,代码实现更复杂,社区应用较少。 3. 未成为主流:后续研究较少,生态支持远不及 LoRA。 | ⚠️ 非原生支持。需手动实现掩码机制或寻找第三方实现,Hugging Face 官方 peft 库未集成此方法。 |
| DoRA | 1. 参数量微增:相比 LoRA 增加了一个表示“幅度”的向量,可训练参数略多于 LoRA。 2. 社区应用较新:是较新的改进方法,生态工具和文档不如 LoRA 丰富。 3. 收益与任务相关:在简单任务上性能提升不明显,复杂任务收益更大。 | ✅ 已有支持。peft 库较新版本已开始集成 DoRA 的实现,可直接通过 LoraConfig 的参数开启。 |
| MoRA | 1. 实现更复杂:通过引入更复杂的结构(如频域变换)来实现高秩更新,代码实现和调优门槛较高。 2. 社区应用极少:作为前沿探索,尚未形成广泛的应用生态。 | ⚠️ 暂无官方支持。peft 库未集成此方法,需从官方论文仓库获取代码,并手动适配。 |
💡 关键结论
-
关于 Transformers 生态:表格中的绝大多数方法(LoRA、QLoRA、Adapter、Prefix Tuning、Prompt Tuning、P-Tuning、P-Tuning v2、BitFit、DoRA)都可以通过Hugging Face 的peft库,在 transformers 框架下轻松完成训练。
-
当前首选:如果你的资源有限且追求稳定效果,LoRA及其变体(QLoRA、DoRA)是目前社区最主流、生态支持最好的选择。

- 策略:
- 资源极度受限(如单卡跑百亿模型):选 QLoRA。
- 追求最佳效果,且任务复杂:选 LoRA或 DoRA,适当增加
r值。 - 需要快速为多个任务切换能力:选 Adapter 或 Prefix Tuning。
- 仅做极简单的基线测试:选 BitFit。
总结
这11种方法都属于参数高效微调(PEFT),核心理念是冻结预训练模型的大部分参数,仅训练少量额外参数,从而在有限的计算资源下高效适配下游任务。
从资源占用看:QLoRA、提示调整、前缀调整的显存需求最低;LoRA和适配器调整次之;P-Tuning v2因添加多层提示,参数量略多。
从任务适配能力看:P-Tuning v2、P-Tuning、LoRA通常能取得与全量微调更接近的效果,尤其在复杂任务上。
从推理效率看:LoRA(合并权重后)和适配器调整(需前向适配器层)各有特点,而前缀/提示调整会增加输入长度,略微影响推理速度。
选择时可根据你的基座模型大小、可用显存、任务复杂度以及是否需要多任务切换来决定。
二、基于偏好对齐的微调方法(RLHF系列)
这类方法与前面的PEFT思路完全不同,它不是为了“参数高效”,而是为了让模型的输出更符合人类的偏好和价值观。ChatGPT、Claude等对话模型都重度使用了这套方法。
| 微调方法 | 核心思想 | 工作流程 / 特点 |
|---|---|---|
| SFT | 使用大量“人类提问-理想回答”的示范数据,让模型通过监督学习模仿这些回答。 | 是RLHF流程的第一步,建立模型的指令遵循基础。但模型只学会“怎么做”,没学会“什么更好”。 |
| RLHF | 通过强化学习来优化模型,使其行为与人类偏好对齐。 | 三阶段流程 :1. SFT建立基础;2. 训练奖励模型(Reward Model)来模拟人类偏好打分;3. 用PPO等强化学习算法根据奖励优化模型。 |
| DPO | 直接偏好优化,绕过RLHF中复杂的强化学习环节。 | 直接用“好回答-差回答”的对比数据来优化模型,让模型学会偏好判断。实现更简单,训练更稳定。 |
| KTO | 基于诺贝尔奖得主的前景理论( Prospect Theory),引入损失厌恶心理。 | 只需要简单的“好/坏”二元标注,而非成对比较,数据标注更容易,更符合人类心理。 |
| ORPO | 将SFT和偏好学习合并为单阶段完成。 | 通过优化偏好回答与非偏好回答的概率比值,一步到位,训练效率更高。 |
三、其他方向的微调技术
| 类别 | 代表性技术 / 思路 | 核心思想 |
|---|---|---|
| 混合专家(MoE) | 将模型内部划分为多个“专家”模块,训练时根据输入只激活部分专家。 | 在保持总参数量大的同时,控制实际计算量,实现高效训练和推理。 |
| 量化技术 | QLoRA(已介绍)、AWQ、GPTQ等。 | 将模型权重从高精度(如FP16)压缩到低精度(如INT4、INT8),大幅降低显存占用,是超大模型微调的基础。 |
| 提示学习扩展 | 上一轮已介绍的Prompt Tuning、Prefix Tuning等。 | 在不改动模型参数的情况下,通过优化输入端的连续提示向量来引导模型输出。 |
四、最新前沿方向
Online DPO:将DPO从离线静态数据升级为在线持续学习,在模型实际使用过程中实时收集用户反馈并纳入训练,让模型能够动态适应用户偏好的变化。
MobiFe:面向移动端设备的极轻量微调,进一步压缩适配器大小。
PiSSA / LoRA-GA:对LoRA的初始化策略进行改进,让低秩矩阵从一开始就承载更有意义的信息,加速收敛并提升效果。
FLoRA / ReLoRA:将LoRA与联邦学习或持续学习场景结合,解决分布式训练中的参数高效微调问题
这几个前沿的微调方法它们的核心思路都是对现有技术(主要是LoRA和DPO)进行有针对性的改进,以解决特定场景下的痛点。
DPO 是 Direct Preference Optimization(直接偏好优化)的缩写。它是一种无需强化学习的对齐方法。与传统的 RLHF(基于人类反馈的强化学习)不同,DPO 不需要先训练一个奖励模型,再用 PPO 等强化学习算法去优化语言模型。相反,它通过一个闭式损失函数,直接在“好回答”和“差回答”的偏好数据上进行优化,让模型学习到更符合人类偏好的输出。简单来说,RLHF 的流程是“训练奖励模型 → 用强化学习优化语言模型”,而 DPO 把这两步合并成了一步:直接用偏好对比数据来调整语言模型,训练更稳定,实现也更简单。
🚀 Online DPO:让模型在“竞争”中持续进化
Online DPO旨在解决标准DPO的一个关键局限:它只能使用静态的离线数据进行一次性训练,无法处理持续不断的新偏好数据,且容易在学习新任务时“灾难性遗忘”旧任务。你可以把它想象成让一个学生在做了一堆“好/坏”答案的对比练习题后就去考试,而Online DPO则是让这个学生在一个有实时反馈、需要不断适应新题型的环境中持续学习。它的核心原理用一个词概括就是“快慢追逐”。模拟“种内竞争”:借鉴生物学中物种通过竞争进化的思想,Online DPO为同一个模型设置了两个结构完全相同、但优化速度不同的LoRA模块。
快慢模块分工:
- 模拟“种内竞争”
:借鉴生物学中物种通过竞争进化的思想,Online DPO为同一个模型设置了两个结构完全相同、但优化速度不同的LoRA模块。
- 快慢模块分工
- “快模块” (Fast Module)
:负责快速适应新到来的数据流,像敏捷的猎手,迅速捕捉最新的偏好变化。
- “慢模块” (Slow Module)
:负责稳定地保留从历史数据中学到的通用知识和旧任务能力,像稳重的大本营,防止“快模块”跑偏而遗忘根本。
- “追逐”与正则化
:通过一个特殊的正则化项,让“快模块”在追求更好性能时,不能偏离“慢模块”太远。这种“快慢追逐”的动态平衡,既保证了快速适应新领域的能力,又有效缓解了灾难性遗忘。
在此基础上,跨领域在线快慢追逐DPO (COFS-DPO)是其扩展版本。它通过线性组合不同任务领域训练出的最优“快模块”参数,实现对多个领域知识的持续学习和融合。
💡 现实案例:Flow-DPO
微软研究院和加州大学提出的Flow-DPO是Online DPO思想的一个精彩实践。它用两个大模型(Answer LLM和Stop LLM)协同工作,一个负责“生成答案片段”,另一个负责“判断是否完成”。通过在线地对比不同推理路径的好坏(DPO),两个模型在合作与竞争中持续进化,最终生成的数学问题推理过程更详细、准确率更高。
🧩 PiSSA / LoRA-GA:给LoRA一个“更好的起点”
这两种方法都专注于改进LoRA的初始化方式,让微调从一开始就走在更正确的道路上。PiSSA (主奇异值和奇异向量适应)它的核心原理是“抓住主要矛盾”。LoRA-GA (LoRA with Gradient Approximation)虽然搜索结果中没有详细介绍LoRA-GA,但它的核心原理是让初始化时的更新方向与全参数微调对齐。它通过数学方法,让初始化后的LoRA模块在训练第一步产生的梯度更新方向,尽可能去逼近全参数微调时的理想更新方向,从而加速收敛并提升效果。
🔗 FLoRA / ReLoRA:让LoRA适应更复杂的场景
这两者是将LoRA与更前沿的机器学习范式结合,以解决分布式或长期学习中的难题。
FLoRA (联邦低秩适应)
它的核心原理是“数据不动,模型动”。
场景:在金融、医疗等数据敏感领域,多个机构(如不同医院)的数据无法集中训练。
技术:FLoRA让每个机构在本地用自己的数据微调一个相同的LoRA模块,然后只把这些轻量级的LoRA模块(而非完整大模型)上传到一个中央服务器进行聚合(如取平均),再将聚合后的LoRA模块分发回各机构。如此循环,得到一个融合各方知识但从未接触原始数据的强大模型。
ReLoRA (循环低秩适应)
它的核心原理是“积小胜为大胜”。
问题:LoRA的低秩假设(r通常≤128)限制了它能学习的“知识量”,在复杂任务上可能效果不如全参数微调。
技术:ReLoRA采用周期性训练的策略。它先训练一个LoRA模块直到收敛,将其合并回主模型,然后重置LoRA状态,开始新一轮LoRA训练。通过多次这样的“训练-合并-重置”循环,逐步累积模型能力,实现等效于更高秩的更新,从而提升模型上限。
总结与对比
| 方法 | 核心痛点 | 核心原理 | 一句话总结 |
|---|---|---|---|
| Online DPO | 静态数据学习,无法适应动态偏好,灾难性遗忘 | 引入快、慢两个LoRA模块“追逐”式学习,平衡新知识学习与旧知识保留 | 让模型在“内卷”中持续进化,紧跟用户偏好 |
| PiSSA / LoRA-GA | LoRA初始化随机,收敛慢,效果有上限 | 用SVD的主成分(PiSSA)或梯度近似(LoRA-GA)进行“更聪明”的初始化 | 给LoRA一个更好的起点,让它跑得更快、更远 |
| FLoRA | 数据无法集中,需要跨机构协同训练 | 将LoRA作为可交换的“知识载体”,在本地训练,在中央聚合 | 让LoRA成为数据隐私保护下的“知识信使” |
| ReLoRA | LoRA的低秩假设限制了学习容量 | 通过“训练-合并-重置”的周期性累积,实现超越低秩限制的更新 | 用多次小步快跑,累积出超越极限的能力 |
这四个方向代表了当前大模型微调技术发展的几个重要趋势:从静态走向动态(Online DPO)、从随机初始化走向科学初始化(PiSSA)、从单机走向分布式(FLoRA)、从单次更新走向循环累积(ReLoRA)。选择哪种方法,主要取决于你的应用场景是更关注数据时效性、训练效率、数据隐私还是模型性能上限。
总结与选择建议
-
追求极致参数效率、资源极度受限:选BitFit(只改0.1%的参数)或QLoRA(在单卡上跑百亿模型)。
-
追求与全量微调相当的性能:选LoRA、DoRA或P-Tuning v2。
-
目标是训练一个对齐的对话模型:需要走SFT → Reward Model → RLHF/DPO的完整流程。
-
需要模型持续适应用户偏好变化:关注Online DPO等在线学习方法。
-
处理超大规模模型推理:结合GPTQ/AWQ量化与MoE架构。
最后
对于正在迷茫择业、想转行提升,或是刚入门的程序员、编程小白来说,有一个问题几乎人人都在问:未来10年,什么领域的职业发展潜力最大?
答案只有一个:人工智能(尤其是大模型方向)
当下,人工智能行业正处于爆发式增长期,其中大模型相关岗位更是供不应求,薪资待遇直接拉满——字节跳动作为AI领域的头部玩家,给硕士毕业的优质AI人才(含大模型相关方向)开出的月基础工资高达5万—6万元;即便是非“人才计划”的普通应聘者,月基础工资也能稳定在4万元左右。
再看阿里、腾讯两大互联网大厂,非“人才计划”的AI相关岗位应聘者,月基础工资也约有3万元,远超其他行业同资历岗位的薪资水平,对于程序员、小白来说,无疑是绝佳的转型和提升赛道。

对于想入局大模型、抢占未来10年行业红利的程序员和小白来说,现在正是最好的学习时机:行业缺口大、大厂需求旺、薪资天花板高,只要找准学习方向,稳步提升技能,就能轻松摆脱“低薪困境”,抓住AI时代的职业机遇。
如果你还不知道从何开始,我自己整理一套全网最全最细的大模型零基础教程,我也是一路自学走过来的,很清楚小白前期学习的痛楚,你要是没有方向还没有好的资源,根本学不到东西!
下面是我整理的大模型学习资源,希望能帮到你。

👇👇扫码免费领取全部内容👇👇

最后
1、大模型学习路线

2、从0到进阶大模型学习视频教程
从入门到进阶这里都有,跟着老师学习事半功倍。

3、 入门必看大模型学习书籍&文档.pdf(书面上的技术书籍确实太多了,这些是我精选出来的,还有很多不在图里)

4、 AI大模型最新行业报告
2026最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

5、面试试题/经验

【大厂 AI 岗位面经分享(107 道)】

【AI 大模型面试真题(102 道)】

【LLMs 面试真题(97 道)】

6、大模型项目实战&配套源码

适用人群

四阶段学习规划(共90天,可落地执行)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
-
硬件选型
-
带你了解全球大模型
-
使用国产大模型服务
-
搭建 OpenAI 代理
-
热身:基于阿里云 PAI 部署 Stable Diffusion
-
在本地计算机运行大模型
-
大模型的私有化部署
-
基于 vLLM 部署大模型
-
案例:如何优雅地在阿里云私有部署开源大模型
-
部署一套开源 LLM 项目
-
内容安全
-
互联网信息服务算法备案
-
…
👇👇扫码免费领取全部内容👇👇

3、这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
https://mp.weixin.qq.com/s/C8Eqg1SLGfANODzi0zGFwghttps://mp.weixin.qq.com/s/C8Eqg1SLGfANODzi0zGFwg
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)