老板让我训模型，我却外包给龙虾；龙虾学会了，就等于我学会了

VMware中国研发中心

312人浏览 · 2026-06-10 16:39:32

VMware中国研发中心 · 2026-06-10 16:39:32 发布

事情是这样的，老板丢来一个任务：“去研究下怎么训模型。”

作为一个行动派，我火速在社区挖出一套宝藏教程——《From-Data-To-LLM》（☞[https://docs.lazyllm.ai/zh-cn/stable/Tutorial/from-data-to-llm/outline /]）。28课时，从预训练、SFT、RLHF到RAG全链路覆盖，脚本管够，堪称大模型训练的“九阴真经”。

教程非常棒，但我好像已经过了学习的年龄了，卷不动了啊！

于是我转头看向正在机房里打盹的小龙虾（OpenClaw），做了一个大胆的决定——把教程直接甩给它，让它替我学。

结果这家伙读文档、配环境、跑训练、推Loss曲线一气呵成……全程我只动了嘴。龙虾学会了，四舍五入等于我也会了。这才叫真正的“自动驾驶”。

🎯 一句话讲清：这是什么组合？

大模型研发的全生命周期，其实可以用一个极其简洁的公式来概括：

OpenClaw（多智能体调度大脑）
+From-Data-To-LLM（工业级模型训练实战教程）
+LazyLLM（开源 Agent 应用编排 + 数据处理框架）
+LLaMA-Factory（开源大模型训练、微调、强化学习一体化工具框架）
=你说需求，Agent 自动读文档、配环境、洗数据、跑训练、推结果

为了避免概念混淆，可以先明确二者分工：

OpenClaw 是调度执行层，From-Data-To-LLM 是训练教程与脚本资产（LazyLLM Data Pipeline 是教程中脚本处理的基础）。

在这里插入图片描述

💡 分说主角：大脑与宝库的互补

🧠 调度大脑 —— OpenClaw

OpenClaw 并不是夜宵摊上的麻辣小龙虾（Claw 直译为“开放的爪子”），而是一个极其凶猛的 AI Agent 调度框架：

🔄 多模型切换：接入 GPT、Claude、DeepSeek、国产大模型等，哪个聪明用哪个。

💬 多渠道接入：无缝适配飞书、微信、Telegram、Slack，在聊天群里就能向 Agent 发号施令。

🔌 执行插件库：文件读写、Shell 命令执行、Docker 沙箱隔离执行，让 Agent 拥有了干活的“手脚”。

最核心的是，它能读懂教程文档，自动执行训练命令，实时推送日志与结果。

📚 知识与脚本库 —— From-Data-To-LLM 教程

From-Data-To-LLM 是一套由LazyLLM团队精心打磨的工业级 LLM 模型训练与数据工程实战教程（共 28 课时）

☞[https://docs.lazyllm.ai/zh-cn/stable/Tutorial/from-data-to-llm/outline /]

在这里插入图片描述

💡 数据为中心：不玩花架子，专注于真实工业界最核心的“数据质量”与“系统工程”。

🛠️ 全链路覆盖：涵盖继续预训练 (PT)、有监督微调 (SFT)、人类偏好价值观对齐 (DPO/GRPO) 以及垂直领域 RAG 的全套实战。

⚙️ 开箱即用：每个环节都附带经过大规模工业验证的 Python 执行脚本。

(注：本教程的复杂数据清洗与准备脚本，在底层均由 LazyLLM 最新的 Data Pipeline 框架提供技术加持，后文我们将为你深度揭秘这一强悍后盾。)

在这个组合里，OpenClaw 更像“调度执行层”，负责理解需求、规划步骤并调用工具；From-Data-To-LLM 则是“训练教程与脚本资产”，提供可直接运行的模型训练实战路径；而 LazyLLM Data Pipeline 是更底层的数据工程能力，支撑数据清洗、样本构建与 Pipeline 编排。三者结合，才真正形成了从“一句话需求”到“自动完成训练任务”的闭环。

🛠️ 框架依赖——LazyLLM和LLamafactory

LazyLLM（https://github.com/LazyAGI/LazyLLM） 是一套由 LazyAGI 团队开发的开源的Agent应用编排 + 数据处理框架，其依赖LLamaFactory** （开源大模型训练，微调，强化学习一体化工具框架，https://github.com/hiyouga/LlamaFactory）的底座提供模型训练、微调和强化学习的能力。

🚀 快速上手：让小龙虾帮你搞定环境与训练

在这里插入图片描述

假设你已经配置并运行了小龙虾🦞（OpenClaw）。现在，你不需要再手动去敲复杂的 Conda 环境配置和 Pip 安装命令了，直接指挥小龙虾干活！

🔹 第一步：让小龙虾阅读项目文档

在飞书/微信群聊中，直接给小龙虾发送文档分析指令：

请学习项目**https://github.com/LazyAGI/Tutorial/blob/main/from-data-to-llm/AGENT.md****，了解项目的架构以及如何快速开始。**

小龙虾会自动定位到文件，通过大模型快速检索并生成环境配置的步骤概览。

🔹 第二步：一句话让小龙虾自动配置环境

既然小龙虾已经理解了环境要求，直接让它在后台执行：

帮我把 from-data-to-llm 的训练环境配置好，环境名就叫 from-data-to-llm

此时，小龙虾会开启 Shell 命令执行插件，在后台自主运行：

conda create -n from-data-to-llm python=3.10 -y
conda activate from-data-to-llm
执行 AGENT.md 中指定的依赖安装命令

配置完成后，小龙虾会给你回信：

🤖 小龙虾配置完毕：

已经成功帮您新建并激活了 from-data-to-llm 虚拟环境，所有依赖包均已安装成功。现在您可以随时发起训练任务！

🔹 第三步：发出第一条训练指令

在聊天界面输入：

用 chapter9 的代码跑 wikitext 预训练，max_steps=1000

小龙虾收到后，将自动编排并执行以下 5 个步骤：

步骤	Agent 具体动作	联动教程背后的工程细节
1️⃣ 理解任务	智能体读取 docs/chapter9/9.md	自动学习课程中“继续预训练（PT）”的原理与任务背景
2️⃣ 定位脚本	定位到 docs/chapter9/code/run_wikitext.py	锁定我们基于 LazyLLM 封装的预训练全链路脚本
3️⃣ 组装命令	自动提取参数并组装完整命令	补全 --mode=train 及必要的参数配置，防止命令遗漏
4️⃣ 执行训练	激活 from-data-to-llm 环境并后台运行	监控 GPU 状态，实时解析终端日志中的 Loss 趋势
5️⃣ 返回结果	将汇总结果与 Loss 曲线推送到群聊	告诉你 PPL 从 21.4 降到了 2.5，预训练非常成功！

用户与龙虾🦞的交互过程展示

# 比如你可以这样问
继续跟进TokenChunker的进度

在这里插入图片描述

# 还可以这样问
检查刚刚跑的chapter5的结果是否和教程内容相近，展示对比结果

在这里插入图片描述

📊 能力全景：28 课时 × Agent 调度，能帮你做什么

当 OpenClaw 的智能调度，与 From-Data-To-LLM 完备的课程脚本深度融合，你的 AI 自主训练版图将彻底补全：

from-data-to-llm 28课时知识体系 ➔ 注入 OpenClaw ➔ 自动编排调度 ➔ 变成“AI 自主训练系统”

下面是课程的 6 大核心板块，以及小龙虾在每一板块中能帮你实现的自主训练：

在这里插入图片描述

1️⃣ 大模型底座与系统工程基础（第 1 ~ 6 课时）

核心内容：Transformer 架构剖析、分布式训练原语（ZeRO-1/2/3, 3D 并行）、vLLM 推理加速与模型量化、基于 Agent 的数据处理流水线。

🦞小龙虾能帮你做的事：一句话拉起部署与数据生成 Pipeline！

指令示例：

运行 docs/chapter5/code/pdfppl.py 解析 PDF 论文并合成 QA 问答对数据

🤖 小龙虾动作：在后台自动加载脚本，调用 LazyLLM 自动拉起 PDF 解析、段落合并、图片提取与 QA 蒸馏过滤的 Pipeline，将最终的 Alpaca 格式数据保存到本地。

2️⃣ 预训练数据工程与实战（第 7 ~ 10 课时）

核心内容：预训练评测指标（PPL 困惑度）、预训练文本清洗去重（KenLM 困惑度打分、MinHash+LSH）、Token 分块（BPE 与 Unigram）、多模态大模型预训练。

🦞小龙虾能帮你做的事：自动化预训练数据准备与模型继续预训练（PT）！

指令示例：

运行 docs/chapter9/code/run_wikitext.py --mode=train 启动 wikitext 继续预训练

🤖 小龙虾动作：在后台自动下载 WikiText-2 数据集并运行脚本，调用 LazyLLM 的清洗分块 pipeline 并使用 LLaMA-Factory 启动全参数预训练（stage='pt'），最后对比输出 PT 前后的 PPL 与 Loss 变化。

3️⃣ 微调数据工程与 SFT 实战（第 11 ~ 14 课时）

核心内容：SFT 对齐税与损失函数计算、PEFT 参数高效微调（LoRA, QLoRA, AdaLoRA, DoRA）、Self-Instruct / Evol-Instruct 数据蒸馏、安全拒答数据生成、多模态微调。

🦞 小龙虾能帮你做的事：一键生成合成数据集并拉起 SFT 微调！

指令示例：

运行 docs/chapter13/code/text2qa.py 自动生成安全拒答微调数据集并启动 LoRA 微调

🤖 小龙虾动作：自动加载，流式读取对抗性 Jailbreak prompts，经过 QA 生成与评分过滤后自动拉起 LoRA 监督微调（SFT），完成后保存权重。

4️⃣ 人类偏好对齐数据工程与实战（第 15 ~ 18 课时）

核心内容：RLHF 强化学习与 PPO 算法（Actor-Critic 架构）、DPO 直接偏好优化、GRPO 组级相对优势算法（DeepSeek-R1 核心对齐技术）、偏好数据与规则奖励构建。

🦞 小龙虾能帮你做的事：全自动跑对齐强化学习实验！

指令示例1：

运行 docs/chapter18/code/train_grpo.py 用规则奖励启动 GRPO 强化学习对齐训练

指令示例2：

运行 docs/chapter18/code/run_dpo.py 启动 DPO 偏好对齐训练

🤖 小龙虾动作：自动在后台执行脚本，以 GSM8K 的正确性为规则奖励信号跑 GRPO 算法（免除 Critic 网络开销），并在策略更新完毕后评估推理链 (CoT) 表达能力。

5️⃣ 特定领域能力数据构建（第 19 ~ 24 课时）

核心内容：推理与数学能力增强（CoT 推理链数据构建）、代码能力增强（FIM 填空、Docker 沙箱代码执行反馈强化）、长上下文能力增强（“大海捞针”NIAH 测试）、结构化 JSON 输出与格式对齐、Agent 工具调用轨迹构建。

🦞 小龙虾能帮你做的事：拉起环境隔离评测与高难度格式对齐微调！

指令示例 1：

运行 docs/chapter20/code/run.py 启动 Docker 隔离沙箱跑代码训练

指令示例 2：

运行 docs/chapter22/code/run_text2sql_pipeline.py 训练 Qwen 实现 Text2SQL JSON 输出的能力提升

🤖 小龙虾动作：拉起 Docker 沙箱环境，运行第20章脚本并根据生成代码的测试通过率（Pass@k）；或者通过第22章的脚本实现 Schema 逆向数据合成，并微调模型使其在工具调用时输出完美符合 Schema 的 JSON。

6️⃣ 检索增强生成（RAG）数据工程（第 25 ~ 28 课时）

核心内容：RAG 检索三阶段、文档智能语义分块（Recursive Splitting 与 Metadata 注入）、Embedding/Reranker 模型微调（难负样本 Hard Negatives 挖掘、InfoNCE 对比学习损失）、Agentic RAG 与多跳 QA 数据合成。

🦞 小龙虾能帮你做的事：微调检索底座并进行端到端 RAG 评估！

指令示例：

用 chapter26 的代码进行 Embedding 微调，对比微调前后的检索 NDCG@10 指标

🤖 小龙虾动作：首先用 BM25 召回，再用 Cross-encoder 进行难负样本挖掘，组织成三元组偏好对，微调 BGE/E5 向量模型，最后在 MTEB 评测集上算出指标改善，自动集成到你的 RAG 检索知识库中。

🔍 经典自主训练效果展示：

跑 Pre-training，从零开始预训练往往是最耗时的环节。小龙虾可以帮你自动调度训练任务，监控 loss 下降曲线，你只需要告诉它用什么数据、跑多少 steps：

指令：运行 docs/chapter9/code/run_wikitext.py --mode=train 启动预训练

🤖 小龙虾汇报：
继续预训练已完成！
- Base Model PPL: 21.45 (Loss: 3.0660)
- Pretrained Model PPL: 2.51 (Loss: 0.9208)
- 2-gram F1 score: 0.8072
- 模型权重已自动保存至：./pretrain_ckpt/qwen2_5_0_5b_wikitext_xxxx/lazyllm_merge/

跑 SFT 微调，指令微调是让模型学会"听懂人话"的关键步骤。用小龙虾，你不需要记各种训练超参数，直接说人话就行：

指令：运行 docs/chapter13/code/text2qa.py 启动安全拒答数据合成与 LoRA 微调

小龙虾会调用 Text2QA Pipeline 自动生成安全拒答训练数据，启动 LoRA 微调，并通过 LLM-as-a-Judge 自动在测试集上给微调后的模型打分，验证拒答准确率。

loss曲线实例

在这里插入图片描述

跑 DPO/GRPO 对齐，让模型符合人类偏好，DPO/GRPO 是现在最流行的对齐算法。用小龙虾可以并行对比不同对齐策略的效果差异：

指令:运行 docs/chapter18/code/train_grpo.py 启动数学推理对齐

训练完成后，小龙虾会自动提供直观的对比。例如：

GRPO 训练前（小模型 Qwen2.5-0.5B-Instruct 的回答）：

在这里插入图片描述

GRPO 训练后的回答

在这里插入图片描述

⚡ 进阶玩法：多 Agent 并行训练

如果你需要同时跑多个实验（比如调参对比、不同数据集 Ablation），小龙虾的并发调度能力就派上用场了。

在这里插入图片描述

在 openclaw.json 中配置：

{
  "agents": {
    "defaults": {
      "maxConcurrent": 4,
      "subagents": {
        "maxConcurrent": 8
      }
    }
  }
}

这样你可以一口气发一堆指令：

1. 运行 docs/chapter13/code/text2qa.py，设置 lr=1e-5 跑 SFT

2. 运行 docs/chapter13/code/text2qa.py，设置 lr=2e-5 跑 SFT

3. 运行 docs/chapter18/code/run_dpo.py，设置 lr=5e-6 跑 DPO

4. 运行 docs/chapter18/code/train_grpo.py，设置 lr=1e-6 跑 GRPO

4 个实验并行跑，1 小时搞定平时要 4 小时的工作量。

⚡ 教程核心幕后功臣：LazyLLM 统一 Data Pipeline 框架

在这里插入图片描述

前面我们看到，小龙虾能自动拉起训练任务；但真正让这些任务稳定跑通的，是教程背后统一的数据工程底座——LazyLLM Data Pipeline。

具体可以查看：https://github.com/LazyAGI/LazyLLM/tree/main/lazyllm/tools/data

AI 训练业界常说：“大模型训练，80% 的时间在洗数据，20% 的时间在跑训练。” 传统开发流程中，数据清洗、格式转换、负样本挖掘、指令过滤等工作需要编写大量零散的脚本，极易出错且难以复用。

小龙虾之所以能够如此智能、高效地帮你自动清洗和生成数据，其背后的“秘密武器”正是 LazyLLM 最新的 Data Pipeline 统一框架！该框架为大模型数据工程量身定制，定义了清晰的原子算子（Operators）与端到端数据流水线（Pipelines）架构，将数据准备流程全面标准化、模块化。

1️⃣ 核心原子算子 (Operators) —— 像搭积木一样清洗和提纯数据

LazyLLM 中引入并重构了一系列极具工业实战价值的数据处理算子（部分举例）：

PdfProcessor（全新升级，替代旧版 Pdf2Md）：支持高精度 PDF 解析。不仅能提取 Markdown 格式文本，还能自动合并为符合设定字数 (max_chunk_chars) 的语义文本块。更强大的是，它能自动抽取文档中嵌入的图片，并在后台下载并进行 Letterbox 智能等比缩放（可自定义 size，自动居中并填充黑色边缘），直接产出完美的图文多模态 SFT 样本！
IFDScorer（指令遵循难度评分器）：大模型微调中“提质减量”的绝对利器。它基于模型 Loss 自动计算 Instruction Following Difficulty (IFD = CAS / DAS)。其中 CAS 为给定指令 context 下生成答案的平均 token loss，DAS 为不提供指令下直接生成答案的 average token loss。IFD 分数越高，代表指令价值越大。通过该算子，可以自动过滤掉废话和过于简单的无价值指令，只留下高质量 SFT 样本！
boxed_answer_extractor & hash_answer_extractor：专门用于数学及推理数据集的清洗。前者能自动正则提取文本中 \boxed{} 内的数学答案，后者能自动提取 CoT 思考链中 # 之后的最终答案，为自动化 Reward 计算和评估扫清了障碍。
embedding_hard_negative_miner & reranker_hard_negative_miner：RAG 微调中的“降魔铲”。支持基于 BM25 词频检索或 Cross-encoder 语义相似度，从海量语料中自动挖掘“难负样本（Hard Negatives）”，并将它们组装成 anchor-positive-negative 的三元组，极大地提升了 Embedding 与 Reranker 模型的检索精度。

2️⃣ 常用端到端流水线 (Pipelines) —— 零代码拉起工业级数据处理

通过将原子算子合理编排，LazyLLM 封装了丰富的端到端数据处理流水线，可以直接拿来与 OpenClaw 联动：

build_pdf2qa_pipeline：一键拉起从 PDF 文件夹解析、图像等比缩放下载、长上下文切分到生成高质量 QA 问答对的完整多模态数据管道。
build_embedding_hard_neg_pipeline/ build_reranker_hard_neg_pipeline：输入原始检索语料，直接流式生成用于对比学习微调的高品质难负样本三元组。
build_codegen_pipeline / build_text2sql_pipeline：自动完成代码/Text2SQL 任务的数据提取、格式规整、基于大模型的逻辑完整性审计（LogicIntegrityAuditor）与阈值过滤（ThresholdSieve）全生命周期流程。
build_text_pt_pipeline：专门针对继续预训练（PT）的文本提取、MinHash + LSH 近似去重、困惑度过滤管道。

🔌 编程调用：把小龙虾集成到你的平台

如果你不想用飞书，也可以直接在 Python 脚本里调用 OpenClaw：

import requests

response = requests.post(
    "http://localhost:18789/v1/chat",
    headers={"Authorization": "Bearer f1ee028e300ee18a..."},
    json={
        "prompt": "运行 docs/chapter13/code/text2qa.py --mode=train",
        "model": "minimax/MiniMax-M2.7"
    }
)

# 获取返回结果
result = response.json()
print(f"训练状态: {result['status']}")
print(f"最终 Loss: {result['final_loss']}")

这意味着你可以把 OpenClaw 作为后端服务，集成到自己的训练平台、Dashboard、甚至微信 Bot 里。