大模型真正的护城河:不是参数有多大,而是数据清洗有多狠
一、先说结论:大模型的数据清洗到底是什么?
大模型里的数据清洗,不是简单地“删掉脏数据”,而是把海量原始数据变成模型真正能学、值得学、不会学坏的数据。
一句话理解:
数据清洗就是给大模型“挑教材、改教材、去毒教材、去重教材、排版教材”的过程。
大模型训练就像培养一个超级学生。你给它看什么,它就学什么。
如果训练数据里全是重复文章、乱码网页、低质营销号、错误代码、隐私信息、辱骂内容、过时知识、广告垃圾,模型最后就会出现:
- 回答啰嗦、重复;
- 胡说八道;
- 代码质量差;
- 逻辑混乱;
- 学到有害内容;
- 泄露隐私风险;
- 在评测集上“作弊式高分”;
- 微调后能力反而下降。
所以,大模型不是“数据越多越好”,而是:
高质量数据越多越好,低质量数据越多越糟。
OpenAI 的微调最佳实践也强调,微调效果不好时,往往要回头检查训练样本是否存在语法、逻辑、风格、任务边界等问题,并关注数据的平衡性和多样性。
二、大模型为什么特别依赖数据清洗?
1、因为大模型不是“理解世界”,而是在数据中学习规律
大模型本质上是通过大量文本学习语言、知识、推理方式、代码风格、问答模式。
所以数据中有什么,模型就可能学到什么。
举个例子:
如果训练数据里大量存在:
“用户问什么都先道歉,然后编一个答案。”
模型可能就会学成:
“不管会不会,都先说一堆看似专业的话。”
如果数据里大量存在低质量代码:
try {
// TODO
} catch(Exception e) {
e.printStackTrace();
}
模型生成代码时,也可能习惯性给你写一堆不规范代码。
2、因为互联网原始数据非常脏
大模型预训练数据通常来自网页、书籍、论文、代码仓库、百科、论坛、问答社区等。网页数据尤其复杂,常见问题包括:
- HTML 标签残留;
- 导航栏、版权声明、广告混入正文;
- 重复转载;
- SEO 垃圾文章;
- 机器生成垃圾内容;
- 色情、暴力、仇恨、诈骗内容;
- 乱码;
- 多语言混杂;
- 内容过短;
- 内容过长;
- 文本和标题不匹配;
- 个人隐私信息;
- 评测集污染。
像 Falcon RefinedWeb 这类公开数据集,就强调它来自 Common Crawl,并经过严格过滤和大规模去重,用于大模型预训练。
三、大模型数据清洗主要清洗哪些数据?
大模型的数据清洗不是一个场景,而是多个阶段都需要清洗。
1、预训练数据清洗
预训练数据是模型“打基础”的数据。
包括:
- 网页文本;
- 百科;
- 新闻;
- 论文;
- 书籍;
- 代码;
- 问答数据;
- 多语言数据。
目标是让模型学会语言、知识、常识、代码、推理基础。
这类数据规模最大,清洗重点是:
- 去重;
- 去乱码;
- 去垃圾网页;
- 去低质量文本;
- 去有害内容;
- 去隐私;
- 控制语言比例;
- 避免评测集污染。
2、SFT 指令微调数据清洗
SFT 数据就是“问题 + 标准回答”。
例如:
{
"instruction": "解释一下什么是 RAG",
"output": "RAG 是检索增强生成..."
}
它决定模型会不会按照人的指令回答。
清洗重点是:
- 指令是否清楚;
- 答案是否正确;
- 格式是否统一;
- 是否有幻觉;
- 是否答非所问;
- 是否过度拒答;
- 是否风格混乱;
- 是否存在错误示范。
3、偏好数据清洗
偏好数据常见于 RLHF、DPO 等阶段。
形式一般是:
{
"prompt": "帮我写一段简历项目描述",
"chosen": "更好的回答",
"rejected": "较差的回答"
}
它告诉模型:什么回答更好,什么回答更差。
清洗重点是:
- chosen 是否真的比 rejected 好;
- 两个回答差异是否明显;
- 是否存在标注员偏见;
- 是否把“更长”误判成“更好”;
- 是否把“更会装专业”误判成“更准确”;
- 是否存在安全边界错误。
4、RAG 知识库数据清洗
RAG 不是训练模型,而是给模型外挂知识库。
清洗重点是:
- 文档切分是否合理;
- 标题、目录、正文是否保留;
- 表格是否转成可检索文本;
- 过期文档是否剔除;
- 重复文档是否合并;
- 权限数据是否隔离;
- Chunk 是否太短或太长;
- 是否保留来源链接和时间。
很多企业 RAG 效果差,并不是模型差,而是知识库本身太乱。
四、大模型数据清洗的核心流程
1、第一步:数据采集后先做“格式标准化”
原始数据可能来自网页、PDF、Word、Markdown、数据库、代码仓库、客服记录。
第一步要统一成模型能处理的标准格式。
常见格式:
{
"source": "xxx",
"title": "xxx",
"content": "xxx",
"language": "zh",
"created_at": "2026-05-06",
"metadata": {}
}
为什么要保留 metadata?
因为后面需要做:
- 数据来源追踪;
- 去重;
- 质量评分;
- 权限控制;
- 版本管理;
- 评测问题回溯。
如果只保留正文,不保留来源,后面出了问题很难排查。
2、第二步:去掉无效内容
常见无效内容包括:
- 空文本;
- 纯符号;
- 乱码;
- 只有几个字的短文本;
- 重复换行;
- HTML 标签;
- JavaScript 代码;
- CSS 样式;
- 网页导航栏;
- 页脚版权;
- “上一篇/下一篇”;
- “点击展开全文”;
- “扫码关注公众号”。
例如原始网页可能是:
首页 > AI > 正文
点击关注我们
广告位招租
大模型数据清洗是什么?
上一篇:XXX
下一篇:XXX
清洗后应该只保留:
大模型数据清洗是什么?
数据清洗是将原始训练数据转化为高质量训练样本的过程...
这一步看似简单,但非常重要。
如果导航栏、广告、版权声明不清掉,模型会学到大量无意义模板。
3、第三步:语言识别
大模型训练通常需要控制不同语言比例。
比如中文模型要提高中文能力,就不能让英文数据占比过高。
多语言模型则要保证中文、英文、日文、韩文、法文等比例合理。
语言识别要处理几类情况:
① 单语言文本
比如纯中文、纯英文。
② 多语言混杂
比如:
这个函数用于 calculate user score。
这种不一定要删,可以标注为中英混合。
③ 错误语言识别
短文本容易误判。
比如:
OK
可能被误判成英文,但它没有太多训练价值。
④ 低资源语言
一些小语种数据少,不能简单按照英文规则清洗,否则容易误删。
4、第四步:去重,这是大模型数据清洗的重中之重
去重非常关键。
因为互联网内容大量重复:
- 新闻转载;
- 公众号搬运;
- 博客镜像;
- 代码复制;
- 文档多版本;
- 问答重复;
- 模板页面重复。
如果不去重,模型会反复学习同一批内容,带来几个问题:
① 浪费训练资源
大模型训练成本很高。
重复数据相当于让模型反复背同一页书。
② 导致模型偏科
如果某类文章重复太多,模型会过度学习这类表达。
比如大量营销号文章重复,模型就会变得“油腻”。
③ 增加记忆风险
重复出现的隐私、代码、文本,更容易被模型记住。
④ 影响评测可信度
如果训练数据里混入了评测题,模型可能不是会做题,而是背过答案。
公开数据处理实践中,去重、质量过滤、污染检测都是核心环节。Dolma 这类开放语料论文也强调了预训练数据策划、过滤和文档化的重要性。
常见去重方式
1)URL 去重
同一个 URL 只保留一次。
适合网页数据。
2)标题去重
标题完全一样或高度相似的文章,只保留质量最高的一篇。
3)正文完全去重
正文一模一样,保留一份。
4)近似去重
正文不完全一样,但高度相似,也要去掉。
比如:
文章 A:
大模型数据清洗非常重要,它决定模型质量。
文章 B:
大模型的数据清洗很重要,会直接影响模型效果。
两者不是完全一样,但表达高度相似。
5)段落级去重
一篇文章里部分段落重复,也要处理。
例如很多网页都有相同免责声明、版权说明、作者介绍。
5、第五步:质量过滤,把“垃圾教材”筛掉
不是所有数据都值得训练。
低质量文本包括:
- 关键词堆砌;
- 采集站内容;
- SEO 垃圾;
- 语义不通;
- 机器翻译味很重;
- 自动生成低质文章;
- 大量错别字;
- 标题党;
- 内容空洞;
- 全是广告;
- 伪原创。
常见质量判断指标
① 文本长度
太短没信息量,太长可能是拼接垃圾。
② 标点比例
如果一段文字全是符号,质量可能低。
③ 数字比例
如果文本里大部分是手机号、编号、价格、链接,可能不是好语料。
④ 重复比例
如果一句话重复很多遍,就是低质。
例如:
欢迎购买,欢迎购买,欢迎购买,欢迎购买...
⑤ 困惑度过滤
通俗理解:
模型读起来越“不像正常人话”的文本,质量可能越低。
不过这类方法容易误伤专业文本、小语种文本,所以不能单独依赖。
⑥ 分类器打分
训练一个质量分类器,让它判断文本像不像高质量文章。
2026 年一些数据工作继续探索用模型来做数据过滤,比如用模型评分选择更高质量的预训练样本。
6、第六步:安全过滤,防止模型学坏
安全过滤主要处理:
- 暴力恐怖内容;
- 色情低俗内容;
- 仇恨歧视内容;
- 诈骗内容;
- 非法交易内容;
- 自残诱导内容;
- 恶意代码;
- 隐私泄露;
- 政治极端煽动;
- 未成年人不适宜内容。
注意:
不是所有敏感内容都要简单删除。
比如医学、法律、新闻、历史研究中可能包含敏感词,但它们是正常知识。
真正要过滤的是“有害意图”和“危险指导”。
例如:
新闻报道某诈骗案件
可以保留。
但:
教你如何实施诈骗
应该过滤。
这就要求数据清洗不能只靠关键词,而要结合上下文判断。
7、第七步:隐私信息清洗,也就是 PII 清洗
PII 指个人身份信息。
包括:
- 姓名;
- 手机号;
- 身份证号;
- 邮箱;
- 家庭住址;
- 银行卡号;
- 车牌号;
- IP 地址;
- 精确定位;
- 公司内部账号;
- 密码、Token、API Key。
大模型如果学到这些内容,后果很严重:
- 可能泄露用户隐私;
- 可能生成真实个人信息;
- 可能带来合规风险;
- 企业模型可能泄露内部数据。
常见处理方式
1)直接删除
如果整段文本都是隐私信息,直接删。
2)脱敏替换
例如:
张三的手机号是 13812345678
变成:
某用户的手机号是 [PHONE]
3)哈希化
内部系统有时会把 ID 做哈希,保留关联性但不暴露原始信息。
4)权限隔离
企业 RAG 场景下,不能把所有文档混成一个知识库。
财务、人事、合同、客户信息必须做权限控制。
8、第八步:事实性清洗,避免模型学错知识
大模型很容易从数据中学到错误事实。
比如:
某公司 CEO 是 A
但这条数据可能已经过期。
又比如:
某技术框架最新版本是 2.0
现在可能已经是 4.0。
事实性清洗尤其适用于:
- 金融;
- 医疗;
- 法律;
- 政策;
- 产品文档;
- 公司内部知识库;
- 技术文档。
怎么做事实性清洗?
1)保留时间字段
每条数据最好知道发布时间、更新时间。
2)新旧版本合并
旧文档不要直接混入新知识库。
3)权威来源优先
官方文档 > 论坛回答 > 个人博客 > 搬运站。
4)冲突检测
如果两篇文档说法冲突,需要标记。
例如:
文档 A:
接口 A 已废弃。
文档 B:
接口 A 推荐使用。
这时不能都无脑放进去。
9、第九步:评测集污染清洗
这是大模型训练里非常重要但容易被忽略的一点。
什么叫评测集污染?
比如模型训练数据里已经包含了某个考试题和答案。
后面你拿这个考试题去测模型,模型答对了,但不一定是真的会,而是可能“背过”。
这就像学生考试前拿到了答案。
常见污染来源
- 公开 benchmark;
- GitHub 上的评测题;
- 教程文章;
- 论文附录;
- 问答网站转载;
- 数据集镜像。
怎么清洗?
常见方法是把训练数据和评测集做文本匹配,发现高度重合就删除。
一些研究会使用 n-gram 去污染,比如检测连续多个词是否与评测集重合。关于训练数据去污染,相关研究中也会针对英文、法文等评测集做 n-gram 级别处理。
五、不同训练阶段的数据清洗重点不同
1、预训练阶段:更像“筛书”
预训练清洗关注的是:
- 规模;
- 多样性;
- 基础质量;
- 去重;
- 安全;
- 语言比例;
- 知识覆盖。
它不要求每条数据都是问答格式。
示例:
Transformer 是一种基于注意力机制的神经网络架构...
这种普通文章也可以用于预训练。
预训练数据清洗的典型流程
数据采集
→ 文本抽取
→ 格式标准化
→ 语言识别
→ 去 HTML / 广告 / 噪声
→ 去重
→ 质量过滤
→ 安全过滤
→ PII 清洗
→ 评测集去污染
→ 数据配比
→ 训练集切分
2、SFT 阶段:更像“整理标准答案”
SFT 数据非常强调“示范质量”。
比如用户问:
帮我写一个 Java 接口鉴权方案。
低质量答案:
可以用 token,比较安全。
高质量答案:
可以采用 JWT + RBAC + 网关鉴权 + 接口权限表 + 日志审计...
SFT 数据清洗重点包括:
① 指令要明确
差数据:
写一下。
好数据:
请用通俗语言解释 RAG 的核心流程,并给出 Java 项目落地方案。
② 答案要完整
不能只给半截。
③ 答案要正确
尤其是代码、法律、医学、金融类数据。
④ 风格要统一
如果你想训练一个“专业、清晰、适合头条文章”的模型,那答案风格就要统一。
⑤ 拒答边界要准确
该拒绝的拒绝,不该拒绝的不要乱拒绝。
3、DPO / RLHF 阶段:更像“教模型审美”
偏好数据清洗最怕“错选”。
例如:
Prompt:
解释一下 SFT 和 DPO 的区别。
chosen:
SFT 是监督微调,DPO 是直接偏好优化...
rejected:
SFT 和 DPO 差不多,都是训练模型。
这个没问题。
但如果 chosen 只是更长,却不更准确,就有问题。
偏好数据常见坑
1)长度偏见
标注员容易觉得长答案更好。
2)格式偏见
排版漂亮不代表内容正确。
3)迎合偏见
模型说得很自信,但事实是错的。
4)安全偏见
过度拒答会让模型变得不好用。
5)领域偏见
非专业标注员可能判断不了技术答案好坏。
4、RAG 阶段:更像“整理公司资料库”
RAG 数据清洗和训练数据清洗不一样。
RAG 更关注:
- 能不能检索到;
- 检索到的内容是不是最新;
- Chunk 是否完整;
- 文档权限是否正确;
- 文档结构是否保留;
- 来源是否可追溯。
RAG 清洗重点
① PDF 转文本要检查
很多 PDF 转出来会乱序。
比如:
第一列内容 第二列内容
混在一起
如果不处理,向量检索会很差。
② 表格要结构化
表格不能简单转成乱文本。
原表:
|
产品 |
价格 |
状态 |
|
A |
100 |
在售 |
|
B |
200 |
下架 |
应该转成:
产品 A,价格 100,状态在售。
产品 B,价格 200,状态下架。
③ 文档切块要合理
切太短:上下文不完整。
切太长:召回不精准。
④ 保留标题层级
比如:
一级标题:接口鉴权
二级标题:JWT 方案
正文:...
标题对检索非常重要。
⑤ 删除过期文档
企业知识库最常见问题就是旧文档和新文档同时存在。
模型检索到旧文档,就会给出错误答案。
六、大模型数据清洗常见技术方法
1、规则清洗
规则清洗就是写规则。
例如:
如果文本长度小于 50 字,删除。
如果数字占比超过 70%,删除。
如果重复字符超过一定比例,删除。
如果包含大量 HTML 标签,删除。
优点:
- 简单;
- 快;
- 成本低;
- 可解释。
缺点:
- 容易误删;
- 对复杂语义判断不够;
- 规则维护成本高。
适合第一轮粗清洗。
2、模型清洗
用一个小模型或大模型判断数据质量。
比如让模型判断:
这段文本是否适合作为大模型训练数据?
请从准确性、完整性、安全性、语言质量四个维度打分。
优点:
- 能理解语义;
- 对复杂垃圾内容识别更好;
- 可做多维度评分。
缺点:
- 成本高;
- 速度慢;
- 模型本身也可能误判;
- 需要抽样复核。
适合精细清洗。
3、分类器过滤
训练一个质量分类器。
输入文本,输出:
高质量 / 中质量 / 低质量
或者输出分数:
quality_score = 0.86
然后保留高分数据。
这类方法常用于大规模语料过滤。
4、Embedding 相似度去重
把文本转成向量,然后判断相似度。
适合处理:
- 改写文章;
- 伪原创;
- 模板化内容;
- 近似问答;
- 重复知识点。
例如两篇文章虽然字面不同,但语义几乎一样,也可以识别出来。
5、MinHash / SimHash 去重
这是大规模文本去重常用方法。
不用理解复杂原理,你可以简单理解为:
给每篇文章生成一个“内容指纹”,指纹相似就说明文章相似。
优点:
- 快;
- 适合海量数据;
- 成本低。
适合预训练数据大规模去重。
6、人工抽检
再强的自动清洗,也不能完全替代人工。
尤其是:
- 医疗;
- 金融;
- 法律;
- 代码;
- 公司核心业务;
- 简历项目;
- 客服话术;
- 政策文件。
人工抽检关注:
- 是否准确;
- 是否过时;
- 是否安全;
- 是否符合业务目标;
- 是否有代表性。
七、数据清洗不是越狠越好
很多人会误解:
脏数据越多删得越多,模型越好。
不一定。
如果清洗太狠,可能导致:
- 数据规模不足;
- 语言风格单一;
- 模型不会处理真实世界噪声;
- 小语种数据被误删;
- 长尾知识丢失;
- 专业文本被当成异常文本删除。
比如代码数据里有大量符号,如果简单按“符号比例高”删除,代码数据就没了。
医学文本里有很多专业名词,如果按“普通语言流畅度”过滤,可能把高价值专业数据删掉。
所以更好的策略是:
粗清洗要稳,精清洗要准,最终要看模型效果。
八、企业项目里如何落地大模型数据清洗?
这里给你一套非常适合写进简历和项目里的落地方案。
1、项目背景
企业内部有大量文档、客服记录、产品说明、接口文档、FAQ、业务流程文档,希望构建一个大模型问答系统或 RAG 知识库。
但原始数据存在:
- 文档格式混乱;
- 内容重复;
- 旧版本文档未删除;
- PDF 解析错乱;
- 问答数据不规范;
- 敏感信息未脱敏;
- 知识库召回不准;
- 模型回答经常引用过期信息。
2、数据清洗架构
可以设计成:
数据源接入层
→ 文档解析层
→ 数据清洗层
→ 质量评估层
→ 向量化入库层
→ 检索增强层
→ 效果评测层
3、具体模块设计
① 数据源接入
支持:
- PDF;
- Word;
- Excel;
- Markdown;
- HTML;
- 数据库;
- 接口文档;
- 客服问答;
- 业务知识库。
② 文档解析
不同格式使用不同解析方式:
- PDF:解析正文、标题、表格;
- Word:保留标题层级;
- Excel:转成结构化文本;
- Markdown:保留标题、代码块;
- HTML:去导航、去广告、提取正文。
③ 基础清洗
包括:
- 去空文本;
- 去乱码;
- 去 HTML 标签;
- 标准化换行;
- 统一标点;
- 删除页眉页脚;
- 删除广告语;
- 删除版权模板。
④ 去重处理
包括:
- 文档级去重;
- 段落级去重;
- Chunk 级去重;
- 相似内容合并。
⑤ 敏感信息脱敏
识别:
- 手机号;
- 邮箱;
- 身份证号;
- 地址;
- 客户名称;
- 合同编号;
- API Key;
- Token。
处理方式:
手机号 → [PHONE]
邮箱 → [EMAIL]
身份证 → [ID_CARD]
Token → [SECRET]
⑥ 质量评分
给每个文档或 Chunk 打分:
{
"完整性": 0.8,
"可读性": 0.9,
"时效性": 0.7,
"权威性": 0.85,
"安全性": 1.0
}
低分数据进入人工审核或直接剔除。
⑦ 文档切块
切块策略:
- 按标题切;
- 按段落切;
- 按语义切;
- 保留上下文窗口;
- 每个 Chunk 绑定来源、标题、时间、权限。
示例:
{
"chunk_id": "doc_001_003",
"title": "接口鉴权方案",
"section": "JWT 鉴权流程",
"content": "用户登录后获取 token...",
"source": "权限系统设计文档",
"updated_at": "2026-04-20",
"permission": "backend_team"
}
⑧ 入库前评测
入库前可以做几类测试:
- 相似问题能否召回正确文档;
- 过期文档是否被排除;
- 敏感信息是否泄露;
- 重复内容是否减少;
- Chunk 是否包含完整语义。
九、数据清洗在简历中怎么写?
如果你想把“大模型数据清洗”写进简历,可以这样写:
项目描述版本
负责企业知识库大模型问答系统的数据清洗与知识入库流程建设,针对 PDF、Word、Markdown、接口文档、FAQ 等多源异构数据,设计并实现文档解析、内容去噪、重复数据检测、敏感信息脱敏、文档切块、质量评分、向量化入库等模块,提升知识库检索准确率和回答可信度。
技术亮点版本
设计数据清洗 Pipeline,对原始文档进行格式标准化、HTML/页眉页脚/广告噪声清理、段落级去重、PII 敏感信息脱敏、过期文档过滤和 Chunk 级元数据绑定;结合规则过滤与模型评分机制,对低质量内容进行剔除或人工复核,降低 RAG 系统误召回和幻觉回答概率。
结果导向版本
通过数据清洗和知识切块优化,将重复文档比例降低,提升向量检索召回质量;通过为 Chunk 增加标题、来源、更新时间、权限标签等元数据,提高问答结果可追溯性,并降低过期知识和敏感信息被模型引用的风险。
十、面试官可能会怎么问?
1、为什么大模型训练前要做数据清洗?
可以回答:
因为大模型会从数据中学习语言、知识和行为模式。如果数据里有重复、乱码、错误知识、隐私、有害内容,模型就可能学到错误模式,导致幻觉、重复输出、安全风险和隐私泄露。数据清洗的目标是提升数据质量,让模型学习高价值内容,而不是被垃圾数据污染。
2、数据去重有什么意义?
可以回答:
去重可以减少训练资源浪费,避免模型过度记忆重复内容,降低隐私记忆风险,也能防止某些重复文本影响模型分布。对于 RAG 来说,去重还能减少重复召回,提高检索结果多样性。
3、RAG 知识库清洗和模型训练数据清洗有什么区别?
可以回答:
训练数据清洗更关注模型学什么,重点是规模、质量、安全、去重和污染检测。RAG 数据清洗更关注能不能检索到正确知识,重点是文档解析、切块、元数据、版本时效、权限控制和可追溯性。
4、怎么处理敏感信息?
可以回答:
一般会先通过正则、NER 模型或规则库识别手机号、邮箱、身份证、地址、Token、API Key 等敏感信息。然后根据业务场景选择删除、脱敏替换或权限隔离。企业内部知识库还需要结合用户权限,避免无权限用户检索到敏感文档。
5、如何判断清洗效果?
可以回答:
不能只看删除了多少数据,而要看清洗后模型或 RAG 系统效果是否提升。可以通过重复率、乱码率、敏感信息命中率、低质量内容比例、检索命中率、答案准确率、人工抽检通过率等指标综合判断。
十一、一套完整的大模型数据清洗指标体系
1、基础质量指标
- 空文本比例;
- 乱码比例;
- 平均文本长度;
- 超短文本比例;
- 超长文本比例;
- HTML 残留比例;
- 无效符号比例。
2、去重指标
- 完全重复率;
- 近似重复率;
- 段落重复率;
- Chunk 重复率;
- 重复来源分布。
3、安全指标
- 有害内容命中率;
- 敏感信息命中率;
- 脱敏成功率;
- 高风险内容比例;
- 权限错误率。
4、业务质量指标
- 文档时效性;
- 来源权威性;
- 内容完整性;
- 标题匹配度;
- 业务覆盖率。
5、RAG 效果指标
- Top-K 召回率;
- 答案命中率;
- 引用准确率;
- 幻觉率;
- 过期知识引用率;
- 用户满意度。
十二、大模型数据清洗常见误区
1、误区一:只要数据量大就行
错。
低质量数据越多,模型越容易学坏。
现在行业越来越重视“高质量数据”和“数据配比”,而不是单纯堆规模。Data × LLM 相关综述也将数据过滤分为样本级过滤和内容级过滤,前者关注高质量、多样性样本,后者关注有害内容、PII、偏见等问题。
2、误区二:清洗就是写几个正则
正则只能解决一部分问题。
比如手机号、邮箱、HTML 标签可以用规则。
但内容是否过时、答案是否正确、chosen 是否优于 rejected,就需要模型判断或人工审核。
3、误区三:所有敏感词都要删除
不对。
“诈骗”这个词出现在新闻报道里,不一定有问题。
关键看上下文和意图。
4、误区四:RAG 效果差就换模型
很多时候不是模型问题,而是知识库问题。
比如:
- 文档太旧;
- Chunk 切错;
- 标题丢失;
- 表格解析失败;
- 重复文档太多;
- 权限混乱;
- 数据没有脱敏。
先清洗数据,再调模型,往往更有效。
5、误区五:清洗一次就结束
数据清洗不是一次性工作。
企业知识库会持续更新。
所以应该做成 Pipeline,而不是人工临时处理。
十三、一个通俗案例:客服知识库如何做数据清洗?
假设公司要做一个智能客服机器人。
原始数据包括:
- 历史客服聊天记录;
- FAQ;
- 产品文档;
- 售后政策;
- 退换货规则;
- 活动说明;
- 用户投诉记录。
原始问题
用户:我买的东西坏了怎么办?
客服:亲亲您好呢,您这边可以看一下页面哦,也可以联系客服呢。
这种数据质量很差。
清洗后应该构造成:
{
"question": "商品损坏如何申请售后?",
"answer": "如果商品在签收后发现损坏,用户可以在订单详情页点击申请售后,上传商品照片和订单信息。平台会根据售后政策进行审核。",
"category": "售后",
"source": "售后政策文档",
"updated_at": "2026-04-01"
}
这样模型才能学到清楚、标准、可执行的回答。
十四、数据清洗的最终目标是什么?
大模型数据清洗不是为了“让数据看起来干净”,而是为了四个目标:
1、让模型学得更准
减少错误知识、乱码、重复内容。
2、让模型答得更稳
提升指令理解、格式输出、专业表达。
3、让模型更安全
减少隐私泄露、有害内容、违规输出。
4、让系统更可控
保留来源、时间、权限、版本,方便追踪和治理。
十五、总结
大模型的数据清洗,是大模型工程里非常核心的一环。
它不是简单的“删脏数据”,而是一套系统工程:
数据采集
→ 格式标准化
→ 文本抽取
→ 去噪
→ 去重
→ 质量过滤
→ 安全过滤
→ 隐私脱敏
→ 事实校验
→ 评测集去污染
→ 数据配比
→ 人工抽检
→ 持续迭代
对于预训练来说,数据清洗决定模型基础能力。
对于 SFT 来说,数据清洗决定模型是否听话、是否专业。
对于 DPO/RLHF 来说,数据清洗决定模型偏好是否正确。
对于 RAG 来说,数据清洗决定知识库能不能真正被检索和引用。
最后记住一句话:
大模型的能力上限,很多时候不是由参数决定的,而是由数据质量决定的。参数决定模型能装多少东西,数据清洗决定模型到底学到什么东西。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)