事情是这样的,老板丢来一个任务:“去研究下怎么训模型。”

作为一个行动派,我火速在社区挖出一套宝藏教程——《From-Data-To-LLM》(☞[https://docs.lazyllm.ai/zh-cn/stable/Tutorial/from-data-to-llm/outline/])。28课时,从预训练、SFT、RLHF到RAG全链路覆盖,脚本管够,堪称大模型训练的“九阴真经”。

教程非常棒,但我好像已经过了学习的年龄了,卷不动了啊!

于是我转头看向正在机房里打盹的小龙虾(OpenClaw),做了一个大胆的决定——把教程直接甩给它,让它替我学。

结果这家伙读文档、配环境、跑训练、推Loss曲线一气呵成……全程我只动了嘴。龙虾学会了,四舍五入等于我也会了。这才叫真正的“自动驾驶”。

🎯 一句话讲清:这是什么组合?

大模型研发的全生命周期,其实可以用一个极其简洁的公式来概括:

OpenClaw(多智能体调度大脑)
+From-Data-To-LLM(工业级模型训练实战教程)
+LazyLLM(开源 Agent 应用编排 + 数据处理框架)
+LLaMA-Factory(开源大模型训练、微调、强化学习一体化工具框架)
=你说需求,Agent 自动读文档、配环境、洗数据、跑训练、推结果

为了避免概念混淆,可以先明确二者分工:

OpenClaw 是调度执行层,From-Data-To-LLM 是训练教程与脚本资产(LazyLLM Data Pipeline 是教程中脚本处理的基础)。

在这里插入图片描述

💡 分说主角:大脑与宝库的互补

🧠 调度大脑 —— OpenClaw

OpenClaw 并不是夜宵摊上的麻辣小龙虾(Claw 直译为“开放的爪子”),而是一个极其凶猛的 AI Agent 调度框架

🔄 多模型切换:接入 GPT、Claude、DeepSeek、国产大模型等,哪个聪明用哪个。

💬 多渠道接入:无缝适配飞书、微信、Telegram、Slack,在聊天群里就能向 Agent 发号施令。

🔌 执行插件库:文件读写、Shell 命令执行、Docker 沙箱隔离执行,让 Agent 拥有了干活的“手脚”。

最核心的是,它能读懂教程文档,自动执行训练命令,实时推送日志与结果

📚 知识与脚本库 —— From-Data-To-LLM 教程

From-Data-To-LLM 是一套由LazyLLM团队精心打磨的工业级 LLM 模型训练与数据工程实战教程(共 28 课时)

☞[https://docs.lazyllm.ai/zh-cn/stable/Tutorial/from-data-to-llm/outline/]

在这里插入图片描述

💡 数据为中心:不玩花架子,专注于真实工业界最核心的“数据质量”与“系统工程”。

🛠️ 全链路覆盖:涵盖继续预训练 (PT)、有监督微调 (SFT)、人类偏好价值观对齐 (DPO/GRPO) 以及垂直领域 RAG 的全套实战。

⚙️ 开箱即用:每个环节都附带经过大规模工业验证的 Python 执行脚本。

(注:本教程的复杂数据清洗与准备脚本,在底层均由 LazyLLM 最新的 Data Pipeline 框架提供技术加持,后文我们将为你深度揭秘这一强悍后盾。)

在这个组合里,OpenClaw 更像“调度执行层”,负责理解需求、规划步骤并调用工具;From-Data-To-LLM 则是“训练教程与脚本资产”,提供可直接运行的模型训练实战路径;而 LazyLLM Data Pipeline 是更底层的数据工程能力,支撑数据清洗、样本构建与 Pipeline 编排。三者结合,才真正形成了从“一句话需求”到“自动完成训练任务”的闭环。

🛠️ 框架依赖——LazyLLM和LLamafactory

LazyLLMhttps://github.com/LazyAGI/LazyLLM是一套由 LazyAGI 团队开发的开源的Agent应用编排 + 数据处理框架,其依赖LLamaFactory** (开源大模型训练,微调,强化学习一体化工具框架,https://github.com/hiyouga/LlamaFactory)的底座提供模型训练、微调和强化学习的能力。


🚀 快速上手:让小龙虾帮你搞定环境与训练

在这里插入图片描述

假设你已经配置并运行了小龙虾🦞(OpenClaw)。现在,你不需要再手动去敲复杂的 Conda 环境配置和 Pip 安装命令了,直接指挥小龙虾干活!

🔹 第一步:让小龙虾阅读项目文档

在飞书/微信群聊中,直接给小龙虾发送文档分析指令:

请学习项目**https://github.com/LazyAGI/Tutorial/blob/main/from-data-to-llm/AGENT.md****,了解项目的架构以及如何快速开始。**

小龙虾会自动定位到文件,通过大模型快速检索并生成环境配置的步骤概览。

🔹 第二步:一句话让小龙虾自动配置环境

既然小龙虾已经理解了环境要求,直接让它在后台执行:

帮我把 from-data-to-llm 的训练环境配置好,环境名就叫 from-data-to-llm

此时,小龙虾会开启 Shell 命令执行插件,在后台自主运行:

  1. conda create -n from-data-to-llm python=3.10 -y

  2. conda activate from-data-to-llm

  3. 执行 AGENT.md 中指定的依赖安装命令

配置完成后,小龙虾会给你回信:

🤖 小龙虾配置完毕

已经成功帮您新建并激活了 from-data-to-llm 虚拟环境,所有依赖包均已安装成功。现在您可以随时发起训练任务!

🔹 第三步:发出第一条训练指令

在聊天界面输入:

用 chapter9 的代码跑 wikitext 预训练,max_steps=1000

小龙虾收到后,将自动编排并执行以下 5 个步骤:

步骤 Agent 具体动作 联动教程背后的工程细节
1️⃣ 理解任务 智能体读取 docs/chapter9/9.md 自动学习课程中“继续预训练(PT)”的原理与任务背景
2️⃣ 定位脚本 定位到 docs/chapter9/code/run_wikitext.py 锁定我们基于 LazyLLM 封装的预训练全链路脚本
3️⃣ 组装命令 自动提取参数并组装完整命令 补全 --mode=train 及必要的参数配置,防止命令遗漏
4️⃣ 执行训练 激活 from-data-to-llm 环境并后台运行 监控 GPU 状态,实时解析终端日志中的 Loss 趋势
5️⃣ 返回结果 将汇总结果与 Loss 曲线推送到群聊 告诉你 PPL 从 21.4 降到了 2.5,预训练非常成功!

用户与龙虾🦞的交互过程展示

# 比如你可以这样问
继续跟进TokenChunker的进度

在这里插入图片描述

# 还可以这样问
检查刚刚跑的chapter5的结果是否和教程内容相近,展示对比结果

在这里插入图片描述


📊 能力全景:28 课时 × Agent 调度,能帮你做什么

当 OpenClaw 的智能调度,与 From-Data-To-LLM 完备的课程脚本深度融合,你的 AI 自主训练版图将彻底补全:

from-data-to-llm 28课时知识体系 ➔ 注入 OpenClaw ➔ 自动编排调度 ➔ 变成“AI 自主训练系统”

下面是课程的 6 大核心板块,以及小龙虾在每一板块中能帮你实现的自主训练:

在这里插入图片描述

1️⃣ 大模型底座与系统工程基础(第 1 ~ 6 课时)

核心内容:Transformer 架构剖析、分布式训练原语(ZeRO-1/2/3, 3D 并行)、vLLM 推理加速与模型量化、基于 Agent 的数据处理流水线。

🦞小龙虾能帮你做的事:一句话拉起部署与数据生成 Pipeline!

指令示例

运行 docs/chapter5/code/pdfppl.py 解析 PDF 论文并合成 QA 问答对数据

🤖 小龙虾动作:在后台自动加载脚本,调用 LazyLLM 自动拉起 PDF 解析、段落合并、图片提取与 QA 蒸馏过滤的 Pipeline,将最终的 Alpaca 格式数据保存到本地。

2️⃣ 预训练数据工程与实战(第 7 ~ 10 课时)

核心内容:预训练评测指标(PPL 困惑度)、预训练文本清洗去重(KenLM 困惑度打分、MinHash+LSH)、Token 分块(BPE 与 Unigram)、多模态大模型预训练。

🦞小龙虾能帮你做的事:自动化预训练数据准备与模型继续预训练(PT)!

指令示例

运行 docs/chapter9/code/run_wikitext.py --mode=train 启动 wikitext 继续预训练

🤖 小龙虾动作:在后台自动下载 WikiText-2 数据集并运行脚本,调用 LazyLLM 的清洗分块 pipeline 并使用 LLaMA-Factory 启动全参数预训练(stage='pt'),最后对比输出 PT 前后的 PPL 与 Loss 变化。

3️⃣ 微调数据工程与 SFT 实战(第 11 ~ 14 课时)

核心内容:SFT 对齐税与损失函数计算、PEFT 参数高效微调(LoRA, QLoRA, AdaLoRA, DoRA)、Self-Instruct / Evol-Instruct 数据蒸馏、安全拒答数据生成、多模态微调。

🦞 小龙虾能帮你做的事:一键生成合成数据集并拉起 SFT 微调!

指令示例

运行 docs/chapter13/code/text2qa.py 自动生成安全拒答微调数据集并启动 LoRA 微调

🤖 小龙虾动作:自动加载,流式读取对抗性 Jailbreak prompts,经过 QA 生成与评分过滤后自动拉起 LoRA 监督微调(SFT),完成后保存权重。

4️⃣ 人类偏好对齐数据工程与实战(第 15 ~ 18 课时)

核心内容:RLHF 强化学习与 PPO 算法(Actor-Critic 架构)、DPO 直接偏好优化、GRPO 组级相对优势算法(DeepSeek-R1 核心对齐技术)、偏好数据与规则奖励构建。

🦞 小龙虾能帮你做的事:全自动跑对齐强化学习实验!

指令示例1

运行 docs/chapter18/code/train_grpo.py 用规则奖励启动 GRPO 强化学习对齐训练

指令示例2

运行 docs/chapter18/code/run_dpo.py 启动 DPO 偏好对齐训练

🤖 小龙虾动作:自动在后台执行脚本,以 GSM8K 的正确性为规则奖励信号跑 GRPO 算法(免除 Critic 网络开销),并在策略更新完毕后评估推理链 (CoT) 表达能力。

5️⃣ 特定领域能力数据构建(第 19 ~ 24 课时)

核心内容:推理与数学能力增强(CoT 推理链数据构建)、代码能力增强(FIM 填空、Docker 沙箱代码执行反馈强化)、长上下文能力增强(“大海捞针”NIAH 测试)、结构化 JSON 输出与格式对齐、Agent 工具调用轨迹构建。

🦞 小龙虾能帮你做的事:拉起环境隔离评测与高难度格式对齐微调!

指令示例 1

运行 docs/chapter20/code/run.py 启动 Docker 隔离沙箱跑代码训练

指令示例 2

运行 docs/chapter22/code/run_text2sql_pipeline.py 训练 Qwen 实现 Text2SQL JSON 输出的能力提升

🤖 小龙虾动作:拉起 Docker 沙箱环境,运行第20章脚本并根据生成代码的测试通过率(Pass@k);或者通过第22章的脚本实现 Schema 逆向数据合成,并微调模型使其在工具调用时输出完美符合 Schema 的 JSON。

6️⃣ 检索增强生成(RAG)数据工程(第 25 ~ 28 课时)

核心内容:RAG 检索三阶段、文档智能语义分块(Recursive Splitting 与 Metadata 注入)、Embedding/Reranker 模型微调(难负样本 Hard Negatives 挖掘、InfoNCE 对比学习损失)、Agentic RAG 与多跳 QA 数据合成。

🦞 小龙虾能帮你做的事:微调检索底座并进行端到端 RAG 评估!

指令示例

用 chapter26 的代码进行 Embedding 微调,对比微调前后的检索 NDCG@10 指标

🤖 小龙虾动作:首先用 BM25 召回,再用 Cross-encoder 进行难负样本挖掘,组织成三元组偏好对,微调 BGE/E5 向量模型,最后在 MTEB 评测集上算出指标改善,自动集成到你的 RAG 检索知识库中。


🔍 经典自主训练效果展示:

  1. 跑 Pre-training,从零开始预训练往往是最耗时的环节。小龙虾可以帮你自动调度训练任务,监控 loss 下降曲线,你只需要告诉它用什么数据、跑多少 steps:

指令:运行 docs/chapter9/code/run_wikitext.py --mode=train 启动预训练

🤖 小龙虾汇报:
继续预训练已完成!
- Base Model PPL: 21.45 (Loss: 3.0660)
- Pretrained Model PPL: 2.51 (Loss: 0.9208)
- 2-gram F1 score: 0.8072
- 模型权重已自动保存至:./pretrain_ckpt/qwen2_5_0_5b_wikitext_xxxx/lazyllm_merge/

  1. 跑 SFT 微调,指令微调是让模型学会"听懂人话"的关键步骤。用小龙虾,你不需要记各种训练超参数,直接说人话就行:

指令:运行 docs/chapter13/code/text2qa.py 启动安全拒答数据合成与 LoRA 微调

小龙虾会调用 Text2QA Pipeline 自动生成安全拒答训练数据,启动 LoRA 微调,并通过 LLM-as-a-Judge 自动在测试集上给微调后的模型打分,验证拒答准确率。

loss曲线实例

在这里插入图片描述

  1. 跑 DPO/GRPO 对齐,让模型符合人类偏好,DPO/GRPO 是现在最流行的对齐算法。用小龙虾可以并行对比不同对齐策略的效果差异:

指令:运行 docs/chapter18/code/train_grpo.py 启动数学推理对齐

训练完成后,小龙虾会自动提供直观的对比。例如:

GRPO 训练前(小模型 Qwen2.5-0.5B-Instruct 的回答):

在这里插入图片描述

GRPO 训练后的回答

在这里插入图片描述


⚡ 进阶玩法:多 Agent 并行训练

如果你需要同时跑多个实验(比如调参对比、不同数据集 Ablation),小龙虾的并发调度能力就派上用场了。

在这里插入图片描述

openclaw.json 中配置:

{
  "agents": {
    "defaults": {
      "maxConcurrent": 4,
      "subagents": {
        "maxConcurrent": 8
      }
    }
  }
}

这样你可以一口气发一堆指令:

1. 运行 docs/chapter13/code/text2qa.py,设置 lr=1e-5 跑 SFT

2. 运行 docs/chapter13/code/text2qa.py,设置 lr=2e-5 跑 SFT

3. 运行 docs/chapter18/code/run_dpo.py,设置 lr=5e-6 跑 DPO

4. 运行 docs/chapter18/code/train_grpo.py,设置 lr=1e-6 跑 GRPO

4 个实验并行跑,1 小时搞定平时要 4 小时的工作量。


⚡ 教程核心幕后功臣:LazyLLM 统一 Data Pipeline 框架

在这里插入图片描述

前面我们看到,小龙虾能自动拉起训练任务;但真正让这些任务稳定跑通的,是教程背后统一的数据工程底座——LazyLLM Data Pipeline

具体可以查看:https://github.com/LazyAGI/LazyLLM/tree/main/lazyllm/tools/data

AI 训练业界常说:“大模型训练,80% 的时间在洗数据,20% 的时间在跑训练。” 传统开发流程中,数据清洗、格式转换、负样本挖掘、指令过滤等工作需要编写大量零散的脚本,极易出错且难以复用。

小龙虾之所以能够如此智能、高效地帮你自动清洗和生成数据,其背后的“秘密武器”正是 LazyLLM 最新的 Data Pipeline 统一框架!该框架为大模型数据工程量身定制,定义了清晰的原子算子Operators)与端到端数据流水线Pipelines)架构,将数据准备流程全面标准化、模块化。

1️⃣ 核心原子算子 (Operators) —— 像搭积木一样清洗和提纯数据

LazyLLM 中引入并重构了一系列极具工业实战价值的数据处理算子(部分举例):

  • PdfProcessor(全新升级,替代旧版 Pdf2Md):支持高精度 PDF 解析。不仅能提取 Markdown 格式文本,还能自动合并为符合设定字数 (max_chunk_chars) 的语义文本块。更强大的是,它能自动抽取文档中嵌入的图片,并在后台下载并进行 Letterbox 智能等比缩放(可自定义 size,自动居中并填充黑色边缘),直接产出完美的图文多模态 SFT 样本!

  • IFDScorer(指令遵循难度评分器):大模型微调中“提质减量”的绝对利器。它基于模型 Loss 自动计算 Instruction Following Difficulty (IFD = CAS / DAS)。其中 CAS 为给定指令 context 下生成答案的平均 token loss,DAS 为不提供指令下直接生成答案的 average token loss。IFD 分数越高,代表指令价值越大。通过该算子,可以自动过滤掉废话和过于简单的无价值指令,只留下高质量 SFT 样本!

  • boxed_answer_extractor & hash_answer_extractor:专门用于数学及推理数据集的清洗。前者能自动正则提取文本中 \boxed{} 内的数学答案,后者能自动提取 CoT 思考链中 # 之后的最终答案,为自动化 Reward 计算和评估扫清了障碍。

  • embedding_hard_negative_miner & reranker_hard_negative_miner:RAG 微调中的“降魔铲”。支持基于 BM25 词频检索或 Cross-encoder 语义相似度,从海量语料中自动挖掘“难负样本(Hard Negatives)”,并将它们组装成 anchor-positive-negative 的三元组,极大地提升了 Embedding 与 Reranker 模型的检索精度。

2️⃣ 常用端到端流水线 (Pipelines) —— 零代码拉起工业级数据处理

通过将原子算子合理编排,LazyLLM 封装了丰富的端到端数据处理流水线,可以直接拿来与 OpenClaw 联动:

  • build_pdf2qa_pipeline:一键拉起从 PDF 文件夹解析、图像等比缩放下载、长上下文切分到生成高质量 QA 问答对的完整多模态数据管道。

  • build_embedding_hard_neg_pipeline/ build_reranker_hard_neg_pipeline:输入原始检索语料,直接流式生成用于对比学习微调的高品质难负样本三元组。

  • build_codegen_pipeline / build_text2sql_pipeline:自动完成代码/Text2SQL 任务的数据提取、格式规整、基于大模型的逻辑完整性审计(LogicIntegrityAuditor)与阈值过滤(ThresholdSieve)全生命周期流程。

  • build_text_pt_pipeline:专门针对继续预训练(PT)的文本提取、MinHash + LSH 近似去重、困惑度过滤管道。


🔌 编程调用:把小龙虾集成到你的平台

如果你不想用飞书,也可以直接在 Python 脚本里调用 OpenClaw:

import requests

response = requests.post(
    "http://localhost:18789/v1/chat",
    headers={"Authorization": "Bearer f1ee028e300ee18a..."},
    json={
        "prompt": "运行 docs/chapter13/code/text2qa.py --mode=train",
        "model": "minimax/MiniMax-M2.7"
    }
)

# 获取返回结果
result = response.json()
print(f"训练状态: {result['status']}")
print(f"最终 Loss: {result['final_loss']}")

这意味着你可以把 OpenClaw 作为后端服务,集成到自己的训练平台、Dashboard、甚至微信 Bot 里。


🎯 总结与行动号召

小龙虾(OpenClaw) + From-Data-To-LLM 教程,直接带你开启大模型研发与数据工程的自动驾驶”时代。

你的角色彻底从“苦守终端敲命令、人工调参的执行者”,转变成了“下达大纲指令、喝着咖啡等图表结果的项目经理”:

给小龙虾下达指令➡️Agent 自动读文档、配环境并拉起训练➡️飞书/微信群内喝着咖啡看结果

当小龙虾强大的 Agent 调度能力,遇上 From-Data-To-LLM 体系完备的工业级实战脚本,你可以:

  • 零门槛指令执行:一句话指定具体的 Python 脚本路径并带超参跑完 PT / SFT / DPO。

  • 消融实验提效:并行调度多个脚本跑超参消融对比,效率直接翻倍。

  • 全时段监控:飞书等 IM 实时通知,随时掌握 Loss 与 PPL。

  • 极简编程集成:用 API 将智能调度接入你的专属平台。


📚 延伸学习资源


都看到这儿了,还不赶紧动起来?快去调遣你的第一只小龙虾🦞开始训练吧!

如果你在实践中遇到任何 Bug 或有什么好玩的调参故事,欢迎在下方留言,我们评论区见!

欢迎升级体验 LazyLLM最新版本,请大家去 Github 上点一个免费的star,支持一下~

LazyLLM项目仓库链接🔗https://github.com/LazyAGI/LazyLLM

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐