一、先说结论:大模型的数据清洗到底是什么?

大模型里的数据清洗,不是简单地“删掉脏数据”,而是把海量原始数据变成模型真正能学、值得学、不会学坏的数据。

一句话理解:

数据清洗就是给大模型“挑教材、改教材、去毒教材、去重教材、排版教材”的过程。

大模型训练就像培养一个超级学生。你给它看什么,它就学什么。
如果训练数据里全是重复文章、乱码网页、低质营销号、错误代码、隐私信息、辱骂内容、过时知识、广告垃圾,模型最后就会出现:

  • 回答啰嗦、重复;
  • 胡说八道;
  • 代码质量差;
  • 逻辑混乱;
  • 学到有害内容;
  • 泄露隐私风险;
  • 在评测集上“作弊式高分”;
  • 微调后能力反而下降。

所以,大模型不是“数据越多越好”,而是:

高质量数据越多越好,低质量数据越多越糟。

OpenAI 的微调最佳实践也强调,微调效果不好时,往往要回头检查训练样本是否存在语法、逻辑、风格、任务边界等问题,并关注数据的平衡性和多样性。


二、大模型为什么特别依赖数据清洗?

1、因为大模型不是“理解世界”,而是在数据中学习规律

大模型本质上是通过大量文本学习语言、知识、推理方式、代码风格、问答模式。

所以数据中有什么,模型就可能学到什么。

举个例子:

如果训练数据里大量存在:

“用户问什么都先道歉,然后编一个答案。”

模型可能就会学成:

“不管会不会,都先说一堆看似专业的话。”

如果数据里大量存在低质量代码:

try {
    // TODO
} catch(Exception e) {
    e.printStackTrace();
}

模型生成代码时,也可能习惯性给你写一堆不规范代码。

2、因为互联网原始数据非常脏

大模型预训练数据通常来自网页、书籍、论文、代码仓库、百科、论坛、问答社区等。网页数据尤其复杂,常见问题包括:

  • HTML 标签残留;
  • 导航栏、版权声明、广告混入正文;
  • 重复转载;
  • SEO 垃圾文章;
  • 机器生成垃圾内容;
  • 色情、暴力、仇恨、诈骗内容;
  • 乱码;
  • 多语言混杂;
  • 内容过短;
  • 内容过长;
  • 文本和标题不匹配;
  • 个人隐私信息;
  • 评测集污染。

像 Falcon RefinedWeb 这类公开数据集,就强调它来自 Common Crawl,并经过严格过滤和大规模去重,用于大模型预训练。


三、大模型数据清洗主要清洗哪些数据?

大模型的数据清洗不是一个场景,而是多个阶段都需要清洗。

1、预训练数据清洗

预训练数据是模型“打基础”的数据。

包括:

  • 网页文本;
  • 百科;
  • 新闻;
  • 论文;
  • 书籍;
  • 代码;
  • 问答数据;
  • 多语言数据。

目标是让模型学会语言、知识、常识、代码、推理基础。

这类数据规模最大,清洗重点是:

  • 去重;
  • 去乱码;
  • 去垃圾网页;
  • 去低质量文本;
  • 去有害内容;
  • 去隐私;
  • 控制语言比例;
  • 避免评测集污染。

2、SFT 指令微调数据清洗

SFT 数据就是“问题 + 标准回答”。

例如:

{
  "instruction": "解释一下什么是 RAG",
  "output": "RAG 是检索增强生成..."
}

它决定模型会不会按照人的指令回答。

清洗重点是:

  • 指令是否清楚;
  • 答案是否正确;
  • 格式是否统一;
  • 是否有幻觉;
  • 是否答非所问;
  • 是否过度拒答;
  • 是否风格混乱;
  • 是否存在错误示范。

3、偏好数据清洗

偏好数据常见于 RLHF、DPO 等阶段。

形式一般是:

{
  "prompt": "帮我写一段简历项目描述",
  "chosen": "更好的回答",
  "rejected": "较差的回答"
}

它告诉模型:什么回答更好,什么回答更差。

清洗重点是:

  • chosen 是否真的比 rejected 好;
  • 两个回答差异是否明显;
  • 是否存在标注员偏见;
  • 是否把“更长”误判成“更好”;
  • 是否把“更会装专业”误判成“更准确”;
  • 是否存在安全边界错误。

4、RAG 知识库数据清洗

RAG 不是训练模型,而是给模型外挂知识库。

清洗重点是:

  • 文档切分是否合理;
  • 标题、目录、正文是否保留;
  • 表格是否转成可检索文本;
  • 过期文档是否剔除;
  • 重复文档是否合并;
  • 权限数据是否隔离;
  • Chunk 是否太短或太长;
  • 是否保留来源链接和时间。

很多企业 RAG 效果差,并不是模型差,而是知识库本身太乱。


四、大模型数据清洗的核心流程

1、第一步:数据采集后先做“格式标准化”

原始数据可能来自网页、PDF、Word、Markdown、数据库、代码仓库、客服记录。

第一步要统一成模型能处理的标准格式。

常见格式:

{
  "source": "xxx",
  "title": "xxx",
  "content": "xxx",
  "language": "zh",
  "created_at": "2026-05-06",
  "metadata": {}
}

为什么要保留 metadata?

因为后面需要做:

  • 数据来源追踪;
  • 去重;
  • 质量评分;
  • 权限控制;
  • 版本管理;
  • 评测问题回溯。

如果只保留正文,不保留来源,后面出了问题很难排查。


2、第二步:去掉无效内容

常见无效内容包括:

  • 空文本;
  • 纯符号;
  • 乱码;
  • 只有几个字的短文本;
  • 重复换行;
  • HTML 标签;
  • JavaScript 代码;
  • CSS 样式;
  • 网页导航栏;
  • 页脚版权;
  • “上一篇/下一篇”;
  • “点击展开全文”;
  • “扫码关注公众号”。

例如原始网页可能是:

首页 > AI > 正文
点击关注我们
广告位招租
大模型数据清洗是什么?
上一篇:XXX
下一篇:XXX

清洗后应该只保留:

大模型数据清洗是什么?
数据清洗是将原始训练数据转化为高质量训练样本的过程...

这一步看似简单,但非常重要。
如果导航栏、广告、版权声明不清掉,模型会学到大量无意义模板。


3、第三步:语言识别

大模型训练通常需要控制不同语言比例。

比如中文模型要提高中文能力,就不能让英文数据占比过高。
多语言模型则要保证中文、英文、日文、韩文、法文等比例合理。

语言识别要处理几类情况:

① 单语言文本

比如纯中文、纯英文。

② 多语言混杂

比如:

这个函数用于 calculate user score。

这种不一定要删,可以标注为中英混合。

③ 错误语言识别

短文本容易误判。

比如:

OK

可能被误判成英文,但它没有太多训练价值。

④ 低资源语言

一些小语种数据少,不能简单按照英文规则清洗,否则容易误删。


4、第四步:去重,这是大模型数据清洗的重中之重

去重非常关键。

因为互联网内容大量重复:

  • 新闻转载;
  • 公众号搬运;
  • 博客镜像;
  • 代码复制;
  • 文档多版本;
  • 问答重复;
  • 模板页面重复。

如果不去重,模型会反复学习同一批内容,带来几个问题:

① 浪费训练资源

大模型训练成本很高。
重复数据相当于让模型反复背同一页书。

② 导致模型偏科

如果某类文章重复太多,模型会过度学习这类表达。

比如大量营销号文章重复,模型就会变得“油腻”。

③ 增加记忆风险

重复出现的隐私、代码、文本,更容易被模型记住。

④ 影响评测可信度

如果训练数据里混入了评测题,模型可能不是会做题,而是背过答案。

公开数据处理实践中,去重、质量过滤、污染检测都是核心环节。Dolma 这类开放语料论文也强调了预训练数据策划、过滤和文档化的重要性。

常见去重方式

1)URL 去重

同一个 URL 只保留一次。

适合网页数据。

2)标题去重

标题完全一样或高度相似的文章,只保留质量最高的一篇。

3)正文完全去重

正文一模一样,保留一份。

4)近似去重

正文不完全一样,但高度相似,也要去掉。

比如:

文章 A:

大模型数据清洗非常重要,它决定模型质量。

文章 B:

大模型的数据清洗很重要,会直接影响模型效果。

两者不是完全一样,但表达高度相似。

5)段落级去重

一篇文章里部分段落重复,也要处理。

例如很多网页都有相同免责声明、版权说明、作者介绍。


5、第五步:质量过滤,把“垃圾教材”筛掉

不是所有数据都值得训练。

低质量文本包括:

  • 关键词堆砌;
  • 采集站内容;
  • SEO 垃圾;
  • 语义不通;
  • 机器翻译味很重;
  • 自动生成低质文章;
  • 大量错别字;
  • 标题党;
  • 内容空洞;
  • 全是广告;
  • 伪原创。

常见质量判断指标

① 文本长度

太短没信息量,太长可能是拼接垃圾。

② 标点比例

如果一段文字全是符号,质量可能低。

③ 数字比例

如果文本里大部分是手机号、编号、价格、链接,可能不是好语料。

④ 重复比例

如果一句话重复很多遍,就是低质。

例如:

欢迎购买,欢迎购买,欢迎购买,欢迎购买...

⑤ 困惑度过滤

通俗理解:
模型读起来越“不像正常人话”的文本,质量可能越低。

不过这类方法容易误伤专业文本、小语种文本,所以不能单独依赖。

⑥ 分类器打分

训练一个质量分类器,让它判断文本像不像高质量文章。

2026 年一些数据工作继续探索用模型来做数据过滤,比如用模型评分选择更高质量的预训练样本。


6、第六步:安全过滤,防止模型学坏

安全过滤主要处理:

  • 暴力恐怖内容;
  • 色情低俗内容;
  • 仇恨歧视内容;
  • 诈骗内容;
  • 非法交易内容;
  • 自残诱导内容;
  • 恶意代码;
  • 隐私泄露;
  • 政治极端煽动;
  • 未成年人不适宜内容。

注意:
不是所有敏感内容都要简单删除。

比如医学、法律、新闻、历史研究中可能包含敏感词,但它们是正常知识。
真正要过滤的是“有害意图”和“危险指导”。

例如:

新闻报道某诈骗案件

可以保留。

但:

教你如何实施诈骗

应该过滤。

这就要求数据清洗不能只靠关键词,而要结合上下文判断。


7、第七步:隐私信息清洗,也就是 PII 清洗

PII 指个人身份信息。

包括:

  • 姓名;
  • 手机号;
  • 身份证号;
  • 邮箱;
  • 家庭住址;
  • 银行卡号;
  • 车牌号;
  • IP 地址;
  • 精确定位;
  • 公司内部账号;
  • 密码、Token、API Key。

大模型如果学到这些内容,后果很严重:

  • 可能泄露用户隐私;
  • 可能生成真实个人信息;
  • 可能带来合规风险;
  • 企业模型可能泄露内部数据。

常见处理方式

1)直接删除

如果整段文本都是隐私信息,直接删。

2)脱敏替换

例如:

张三的手机号是 13812345678

变成:

某用户的手机号是 [PHONE]

3)哈希化

内部系统有时会把 ID 做哈希,保留关联性但不暴露原始信息。

4)权限隔离

企业 RAG 场景下,不能把所有文档混成一个知识库。
财务、人事、合同、客户信息必须做权限控制。


8、第八步:事实性清洗,避免模型学错知识

大模型很容易从数据中学到错误事实。

比如:

某公司 CEO 是 A

但这条数据可能已经过期。

又比如:

某技术框架最新版本是 2.0

现在可能已经是 4.0。

事实性清洗尤其适用于:

  • 金融;
  • 医疗;
  • 法律;
  • 政策;
  • 产品文档;
  • 公司内部知识库;
  • 技术文档。

怎么做事实性清洗?

1)保留时间字段

每条数据最好知道发布时间、更新时间。

2)新旧版本合并

旧文档不要直接混入新知识库。

3)权威来源优先

官方文档 > 论坛回答 > 个人博客 > 搬运站。

4)冲突检测

如果两篇文档说法冲突,需要标记。

例如:

文档 A:

接口 A 已废弃。

文档 B:

接口 A 推荐使用。

这时不能都无脑放进去。


9、第九步:评测集污染清洗

这是大模型训练里非常重要但容易被忽略的一点。

什么叫评测集污染?

比如模型训练数据里已经包含了某个考试题和答案。
后面你拿这个考试题去测模型,模型答对了,但不一定是真的会,而是可能“背过”。

这就像学生考试前拿到了答案。

常见污染来源

  • 公开 benchmark;
  • GitHub 上的评测题;
  • 教程文章;
  • 论文附录;
  • 问答网站转载;
  • 数据集镜像。

怎么清洗?

常见方法是把训练数据和评测集做文本匹配,发现高度重合就删除。

一些研究会使用 n-gram 去污染,比如检测连续多个词是否与评测集重合。关于训练数据去污染,相关研究中也会针对英文、法文等评测集做 n-gram 级别处理。


五、不同训练阶段的数据清洗重点不同

1、预训练阶段:更像“筛书”

预训练清洗关注的是:

  • 规模;
  • 多样性;
  • 基础质量;
  • 去重;
  • 安全;
  • 语言比例;
  • 知识覆盖。

它不要求每条数据都是问答格式。

示例:

Transformer 是一种基于注意力机制的神经网络架构...

这种普通文章也可以用于预训练。

预训练数据清洗的典型流程

数据采集
→ 文本抽取
→ 格式标准化
→ 语言识别
→ 去 HTML / 广告 / 噪声
→ 去重
→ 质量过滤
→ 安全过滤
→ PII 清洗
→ 评测集去污染
→ 数据配比
→ 训练集切分

2、SFT 阶段:更像“整理标准答案”

SFT 数据非常强调“示范质量”。

比如用户问:

帮我写一个 Java 接口鉴权方案。

低质量答案:

可以用 token,比较安全。

高质量答案:

可以采用 JWT + RBAC + 网关鉴权 + 接口权限表 + 日志审计...

SFT 数据清洗重点包括:

① 指令要明确

差数据:

写一下。

好数据:

请用通俗语言解释 RAG 的核心流程,并给出 Java 项目落地方案。

② 答案要完整

不能只给半截。

③ 答案要正确

尤其是代码、法律、医学、金融类数据。

④ 风格要统一

如果你想训练一个“专业、清晰、适合头条文章”的模型,那答案风格就要统一。

⑤ 拒答边界要准确

该拒绝的拒绝,不该拒绝的不要乱拒绝。


3、DPO / RLHF 阶段:更像“教模型审美”

偏好数据清洗最怕“错选”。

例如:

Prompt:

解释一下 SFT 和 DPO 的区别。

chosen:

SFT 是监督微调,DPO 是直接偏好优化...

rejected:

SFT 和 DPO 差不多,都是训练模型。

这个没问题。

但如果 chosen 只是更长,却不更准确,就有问题。

偏好数据常见坑

1)长度偏见

标注员容易觉得长答案更好。

2)格式偏见

排版漂亮不代表内容正确。

3)迎合偏见

模型说得很自信,但事实是错的。

4)安全偏见

过度拒答会让模型变得不好用。

5)领域偏见

非专业标注员可能判断不了技术答案好坏。


4、RAG 阶段:更像“整理公司资料库”

RAG 数据清洗和训练数据清洗不一样。

RAG 更关注:

  • 能不能检索到;
  • 检索到的内容是不是最新;
  • Chunk 是否完整;
  • 文档权限是否正确;
  • 文档结构是否保留;
  • 来源是否可追溯。

RAG 清洗重点

① PDF 转文本要检查

很多 PDF 转出来会乱序。

比如:

第一列内容 第二列内容
混在一起

如果不处理,向量检索会很差。

② 表格要结构化

表格不能简单转成乱文本。

原表:

产品

价格

状态

A

100

在售

B

200

下架

应该转成:

产品 A,价格 100,状态在售。
产品 B,价格 200,状态下架。

③ 文档切块要合理

切太短:上下文不完整。
切太长:召回不精准。

④ 保留标题层级

比如:

一级标题:接口鉴权
二级标题:JWT 方案
正文:...

标题对检索非常重要。

⑤ 删除过期文档

企业知识库最常见问题就是旧文档和新文档同时存在。
模型检索到旧文档,就会给出错误答案。


六、大模型数据清洗常见技术方法

1、规则清洗

规则清洗就是写规则。

例如:

如果文本长度小于 50 字,删除。
如果数字占比超过 70%,删除。
如果重复字符超过一定比例,删除。
如果包含大量 HTML 标签,删除。

优点:

  • 简单;
  • 快;
  • 成本低;
  • 可解释。

缺点:

  • 容易误删;
  • 对复杂语义判断不够;
  • 规则维护成本高。

适合第一轮粗清洗。


2、模型清洗

用一个小模型或大模型判断数据质量。

比如让模型判断:

这段文本是否适合作为大模型训练数据?
请从准确性、完整性、安全性、语言质量四个维度打分。

优点:

  • 能理解语义;
  • 对复杂垃圾内容识别更好;
  • 可做多维度评分。

缺点:

  • 成本高;
  • 速度慢;
  • 模型本身也可能误判;
  • 需要抽样复核。

适合精细清洗。


3、分类器过滤

训练一个质量分类器。

输入文本,输出:

高质量 / 中质量 / 低质量

或者输出分数:

quality_score = 0.86

然后保留高分数据。

这类方法常用于大规模语料过滤。


4、Embedding 相似度去重

把文本转成向量,然后判断相似度。

适合处理:

  • 改写文章;
  • 伪原创;
  • 模板化内容;
  • 近似问答;
  • 重复知识点。

例如两篇文章虽然字面不同,但语义几乎一样,也可以识别出来。


5、MinHash / SimHash 去重

这是大规模文本去重常用方法。

不用理解复杂原理,你可以简单理解为:

给每篇文章生成一个“内容指纹”,指纹相似就说明文章相似。

优点:

  • 快;
  • 适合海量数据;
  • 成本低。

适合预训练数据大规模去重。


6、人工抽检

再强的自动清洗,也不能完全替代人工。

尤其是:

  • 医疗;
  • 金融;
  • 法律;
  • 代码;
  • 公司核心业务;
  • 简历项目;
  • 客服话术;
  • 政策文件。

人工抽检关注:

  • 是否准确;
  • 是否过时;
  • 是否安全;
  • 是否符合业务目标;
  • 是否有代表性。

七、数据清洗不是越狠越好

很多人会误解:

脏数据越多删得越多,模型越好。

不一定。

如果清洗太狠,可能导致:

  • 数据规模不足;
  • 语言风格单一;
  • 模型不会处理真实世界噪声;
  • 小语种数据被误删;
  • 长尾知识丢失;
  • 专业文本被当成异常文本删除。

比如代码数据里有大量符号,如果简单按“符号比例高”删除,代码数据就没了。

医学文本里有很多专业名词,如果按“普通语言流畅度”过滤,可能把高价值专业数据删掉。

所以更好的策略是:

粗清洗要稳,精清洗要准,最终要看模型效果。


八、企业项目里如何落地大模型数据清洗?

这里给你一套非常适合写进简历和项目里的落地方案。

1、项目背景

企业内部有大量文档、客服记录、产品说明、接口文档、FAQ、业务流程文档,希望构建一个大模型问答系统或 RAG 知识库。

但原始数据存在:

  • 文档格式混乱;
  • 内容重复;
  • 旧版本文档未删除;
  • PDF 解析错乱;
  • 问答数据不规范;
  • 敏感信息未脱敏;
  • 知识库召回不准;
  • 模型回答经常引用过期信息。

2、数据清洗架构

可以设计成:

数据源接入层
→ 文档解析层
→ 数据清洗层
→ 质量评估层
→ 向量化入库层
→ 检索增强层
→ 效果评测层

3、具体模块设计

① 数据源接入

支持:

  • PDF;
  • Word;
  • Excel;
  • Markdown;
  • HTML;
  • 数据库;
  • 接口文档;
  • 客服问答;
  • 业务知识库。

② 文档解析

不同格式使用不同解析方式:

  • PDF:解析正文、标题、表格;
  • Word:保留标题层级;
  • Excel:转成结构化文本;
  • Markdown:保留标题、代码块;
  • HTML:去导航、去广告、提取正文。

③ 基础清洗

包括:

  • 去空文本;
  • 去乱码;
  • 去 HTML 标签;
  • 标准化换行;
  • 统一标点;
  • 删除页眉页脚;
  • 删除广告语;
  • 删除版权模板。

④ 去重处理

包括:

  • 文档级去重;
  • 段落级去重;
  • Chunk 级去重;
  • 相似内容合并。

⑤ 敏感信息脱敏

识别:

  • 手机号;
  • 邮箱;
  • 身份证号;
  • 地址;
  • 客户名称;
  • 合同编号;
  • API Key;
  • Token。

处理方式:

手机号 → [PHONE]
邮箱 → [EMAIL]
身份证 → [ID_CARD]
Token → [SECRET]

⑥ 质量评分

给每个文档或 Chunk 打分:

{
  "完整性": 0.8,
  "可读性": 0.9,
  "时效性": 0.7,
  "权威性": 0.85,
  "安全性": 1.0
}

低分数据进入人工审核或直接剔除。

⑦ 文档切块

切块策略:

  • 按标题切;
  • 按段落切;
  • 按语义切;
  • 保留上下文窗口;
  • 每个 Chunk 绑定来源、标题、时间、权限。

示例:

{
  "chunk_id": "doc_001_003",
  "title": "接口鉴权方案",
  "section": "JWT 鉴权流程",
  "content": "用户登录后获取 token...",
  "source": "权限系统设计文档",
  "updated_at": "2026-04-20",
  "permission": "backend_team"
}

⑧ 入库前评测

入库前可以做几类测试:

  • 相似问题能否召回正确文档;
  • 过期文档是否被排除;
  • 敏感信息是否泄露;
  • 重复内容是否减少;
  • Chunk 是否包含完整语义。

九、数据清洗在简历中怎么写?

如果你想把“大模型数据清洗”写进简历,可以这样写:

项目描述版本

负责企业知识库大模型问答系统的数据清洗与知识入库流程建设,针对 PDF、Word、Markdown、接口文档、FAQ 等多源异构数据,设计并实现文档解析、内容去噪、重复数据检测、敏感信息脱敏、文档切块、质量评分、向量化入库等模块,提升知识库检索准确率和回答可信度。

技术亮点版本

设计数据清洗 Pipeline,对原始文档进行格式标准化、HTML/页眉页脚/广告噪声清理、段落级去重、PII 敏感信息脱敏、过期文档过滤和 Chunk 级元数据绑定;结合规则过滤与模型评分机制,对低质量内容进行剔除或人工复核,降低 RAG 系统误召回和幻觉回答概率。

结果导向版本

通过数据清洗和知识切块优化,将重复文档比例降低,提升向量检索召回质量;通过为 Chunk 增加标题、来源、更新时间、权限标签等元数据,提高问答结果可追溯性,并降低过期知识和敏感信息被模型引用的风险。


十、面试官可能会怎么问?

1、为什么大模型训练前要做数据清洗?

可以回答:

因为大模型会从数据中学习语言、知识和行为模式。如果数据里有重复、乱码、错误知识、隐私、有害内容,模型就可能学到错误模式,导致幻觉、重复输出、安全风险和隐私泄露。数据清洗的目标是提升数据质量,让模型学习高价值内容,而不是被垃圾数据污染。

2、数据去重有什么意义?

可以回答:

去重可以减少训练资源浪费,避免模型过度记忆重复内容,降低隐私记忆风险,也能防止某些重复文本影响模型分布。对于 RAG 来说,去重还能减少重复召回,提高检索结果多样性。

3、RAG 知识库清洗和模型训练数据清洗有什么区别?

可以回答:

训练数据清洗更关注模型学什么,重点是规模、质量、安全、去重和污染检测。RAG 数据清洗更关注能不能检索到正确知识,重点是文档解析、切块、元数据、版本时效、权限控制和可追溯性。

4、怎么处理敏感信息?

可以回答:

一般会先通过正则、NER 模型或规则库识别手机号、邮箱、身份证、地址、Token、API Key 等敏感信息。然后根据业务场景选择删除、脱敏替换或权限隔离。企业内部知识库还需要结合用户权限,避免无权限用户检索到敏感文档。

5、如何判断清洗效果?

可以回答:

不能只看删除了多少数据,而要看清洗后模型或 RAG 系统效果是否提升。可以通过重复率、乱码率、敏感信息命中率、低质量内容比例、检索命中率、答案准确率、人工抽检通过率等指标综合判断。


十一、一套完整的大模型数据清洗指标体系

1、基础质量指标

  • 空文本比例;
  • 乱码比例;
  • 平均文本长度;
  • 超短文本比例;
  • 超长文本比例;
  • HTML 残留比例;
  • 无效符号比例。

2、去重指标

  • 完全重复率;
  • 近似重复率;
  • 段落重复率;
  • Chunk 重复率;
  • 重复来源分布。

3、安全指标

  • 有害内容命中率;
  • 敏感信息命中率;
  • 脱敏成功率;
  • 高风险内容比例;
  • 权限错误率。

4、业务质量指标

  • 文档时效性;
  • 来源权威性;
  • 内容完整性;
  • 标题匹配度;
  • 业务覆盖率。

5、RAG 效果指标

  • Top-K 召回率;
  • 答案命中率;
  • 引用准确率;
  • 幻觉率;
  • 过期知识引用率;
  • 用户满意度。

十二、大模型数据清洗常见误区

1、误区一:只要数据量大就行

错。

低质量数据越多,模型越容易学坏。
现在行业越来越重视“高质量数据”和“数据配比”,而不是单纯堆规模。Data × LLM 相关综述也将数据过滤分为样本级过滤和内容级过滤,前者关注高质量、多样性样本,后者关注有害内容、PII、偏见等问题。

2、误区二:清洗就是写几个正则

正则只能解决一部分问题。

比如手机号、邮箱、HTML 标签可以用规则。
但内容是否过时、答案是否正确、chosen 是否优于 rejected,就需要模型判断或人工审核。

3、误区三:所有敏感词都要删除

不对。

“诈骗”这个词出现在新闻报道里,不一定有问题。
关键看上下文和意图。

4、误区四:RAG 效果差就换模型

很多时候不是模型问题,而是知识库问题。

比如:

  • 文档太旧;
  • Chunk 切错;
  • 标题丢失;
  • 表格解析失败;
  • 重复文档太多;
  • 权限混乱;
  • 数据没有脱敏。

先清洗数据,再调模型,往往更有效。

5、误区五:清洗一次就结束

数据清洗不是一次性工作。

企业知识库会持续更新。
所以应该做成 Pipeline,而不是人工临时处理。


十三、一个通俗案例:客服知识库如何做数据清洗?

假设公司要做一个智能客服机器人。

原始数据包括:

  • 历史客服聊天记录;
  • FAQ;
  • 产品文档;
  • 售后政策;
  • 退换货规则;
  • 活动说明;
  • 用户投诉记录。

原始问题

用户:我买的东西坏了怎么办?
客服:亲亲您好呢,您这边可以看一下页面哦,也可以联系客服呢。

这种数据质量很差。

清洗后应该构造成:

{
  "question": "商品损坏如何申请售后?",
  "answer": "如果商品在签收后发现损坏,用户可以在订单详情页点击申请售后,上传商品照片和订单信息。平台会根据售后政策进行审核。",
  "category": "售后",
  "source": "售后政策文档",
  "updated_at": "2026-04-01"
}

这样模型才能学到清楚、标准、可执行的回答。


十四、数据清洗的最终目标是什么?

大模型数据清洗不是为了“让数据看起来干净”,而是为了四个目标:

1、让模型学得更准

减少错误知识、乱码、重复内容。

2、让模型答得更稳

提升指令理解、格式输出、专业表达。

3、让模型更安全

减少隐私泄露、有害内容、违规输出。

4、让系统更可控

保留来源、时间、权限、版本,方便追踪和治理。


十五、总结

大模型的数据清洗,是大模型工程里非常核心的一环。

它不是简单的“删脏数据”,而是一套系统工程:

数据采集
→ 格式标准化
→ 文本抽取
→ 去噪
→ 去重
→ 质量过滤
→ 安全过滤
→ 隐私脱敏
→ 事实校验
→ 评测集去污染
→ 数据配比
→ 人工抽检
→ 持续迭代

对于预训练来说,数据清洗决定模型基础能力。
对于 SFT 来说,数据清洗决定模型是否听话、是否专业。
对于 DPO/RLHF 来说,数据清洗决定模型偏好是否正确。
对于 RAG 来说,数据清洗决定知识库能不能真正被检索和引用。

最后记住一句话:

大模型的能力上限,很多时候不是由参数决定的,而是由数据质量决定的。参数决定模型能装多少东西,数据清洗决定模型到底学到什么东西。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐