CIMD数据集封面图-超清版

当 Chinese FineWeb 系列数据集在通用中文 AI 领域持续发光发热时,OpenCSG 悄然完成了一次战略转身——从通用语料走向垂直场景,从单一来源走向跨来源整合,从语言模型基座延伸到文档智能底座。

2026 年 3 月,OpenCSG 正式开源 CIMD(Cross-Source Multilingual Document Corpus),一个面向文档智能任务的跨来源、多语言 JSONL 语料库。这不仅是 OpenCSG 数据战略的重要升级,更是从“能读懂文字”到“真正理解文档”的关键一步。

为什么需要 CIMD?文档智能的数据困境

在大模型时代,一个容易被忽视的现实正在浮现:通用语料虽然让模型能够流畅对话,但面对真实世界的文档智能任务时,往往力不从心。

以企业知识库问答为例,一个看似简单的问题“某项政策对我们的业务有什么影响”,实际上需要同时调用制度参考层面的法律法规、政策文件和行业标准,学术研究层面的专业论文、学位论文和会议记录,机构分析层面的研究报告、协会材料和咨询分析,企业运营层面的产能数据、融资材料和项目更新,以及公共讨论层面的媒体报道、观点记录和舆情分析。

传统的单一来源数据集只能回答局部问题——政策库侧重制度依据,论文库侧重技术原理,企业库侧重运营数据。而真实的文档智能任务往往需要跨来源的连续证据链,需要在不同类型的文档之间建立关联,需要追溯每一条证据的来源和时间。

更关键的是,现有的文档数据集普遍存在三大痛点:元数据缺失(只有正文,没有来源、时间、语言等关键信息)、格式混乱(PDF、DOCX、HTML 混杂,难以统一处理)、可追溯性差(无法回溯到原始文档,难以做审计和归因)。

这正是 CIMD 的核心价值所在:将制度文本、学术文献、机构分析、企业资料、公共讨论和市场材料放入同一套记录体系,每条记录都保留完整的元数据,让 AI 能够像文档分析师一样进行“跨来源检索 + 证据归因 + 时间追溯”的联合推理。

CIMD 核心特性:不只是文档堆砌,而是智能就绪的数据资产

跨来源整合:打破文档孤岛

CIMD 最大的创新在于来源家族清晰的跨来源整合。当前公开快照包含 111,308 条 JSONL 记录,覆盖 9,655 个去重文件,保留 35 类来源类型,按 7 个来源家族组织:

  • 制度参考(reference_governance):90,197 条记录,涵盖法规、政策、标准和合规参考材料

  • 学术文献(scholarly_literature):17,569 条记录,包含学术出版物、长文档资料、学位论文和会议记录

  • 企业运营(enterprise_operations):1,744 条记录,整合企业资料、运营信息、产能记录、融资材料和项目更新

  • 公共讨论(public_discourse):1,286 条记录,汇集公共讨论、媒体材料和观点记录

  • 机构分析(institutional_analysis):484 条记录,涵盖研究机构、协会、咨询机构和金融机构分析材料

  • 市场观察(market_observations):20 条记录,包含市场、交易和价格相关记录

  • 其他记录(miscellaneous_records):8 条记录,未归入主要来源家族的材料

这种跨来源结构使得同一主题可以在多种来源之间形成连续证据链,减少跨库拼接带来的语义割裂和上下文缺口。

跨来源整合架构图-超清版

元数据完整:从“能用”到“好用”的关键

CIMD 和通用网页语料的核心差别在于记录级元数据。每条记录都保留了完整的元数据字段:

  • 标识字段:file_id(文件标识)、data_id(记录标识)、file_name(原始文件名)

  • 来源字段:source_type(来源类型)、author(作者/机构)、source_details(来源链接或说明)

  • 时间字段:original_time(原始发布时间)、content_time(内容时间)

  • 分类字段:language(语言标签)、country(国家标签)、keywords(关键词)

  • 授权字段:license_type(记录级授权类型)、data_version(数据版本)

使用者可以按来源筛选只使用制度参考或只使用学术文献,按时间过滤获取特定时间段的政策变化,按语言分类进行中英文分离或混合使用,还可以将检索到的文本片段回溯到原始文件。对于长文档检索、来源归因、审计留痕、授权控制、质量抽检和数据资产管理,这类记录级元数据比单纯正文更有操作价值。

长文档就绪:为文档智能优化的数据结构

CIMD 专门为长文档工作流设计。公开数据主要来自 PDF、DOCX、JSONL 等载体,发布时统一整理为按行读取的 JSONL。raw_chunk 保存解析后的文本块,单个源文件可以对应多条记录。

当前块长不是固定 token 长度,公开快照的 raw_chunk 中位数字符数约为 3,951,P95 约为 4,091。这个长度设计考虑了:

  • 向量库索引的效率(不会太长导致检索粒度过粗)

  • 长上下文模型的输入需求(可以直接作为上下文块)

  • 人工审核的可读性(一个 chunk 对应一个完整的语义单元)

进入向量库或长上下文模型前,用户可按窗口长度重新切分,保持了最大的灵活性。

多语言覆盖:支持跨语种文档智能

当前快照包含 en(英文)、zh(中文)和 other(其他语言) 三类语言标签:

  • 英文(en):59,625 条(53.6%)

  • 中文(zh):19,856 条(17.8%)

  • 其他语言:31,827 条(28.6%)

这种多语言覆盖可用于构建跨语种检索样本、多语言文档分类语料和双语知识库。需要精确到具体小语种的任务,可以先检查或重新标注 other 类记录。

数据规模统计图-超清版

子集可独立使用:灵活的数据组织方式

CIMD 按来源家族组织,每个子集都可以单独加载:


   

# 只加载制度参考材料 

dataset = load_dataset("opencsg/CIMD", "reference_governance", split="train") 

# 只加载学术文献 

dataset = load_dataset("opencsg/CIMD", "scholarly_literature", split="train") 

# 合并多个子集构建完整语料 

from datasets import concatenate_datasets 

ref_data = load_dataset("opencsg/CIMD", "reference_governance", split="train") 

scholar_data = load_dataset("opencsg/CIMD", "scholarly_literature", split="train") 

full_data = concatenate_datasets([ref_data, scholar_data]) 

这个结构适合做分组实验、增量验证和权限分层。如果要发布标准 benchmark,需要另行构造查询、标注和评价集。

质量保障:公开版本经过发布前筛选

当前公开快照经过严格的发布前筛选:

  • 过滤前记录条数:379,648

  • 过滤排除记录条数:268,340

  • 公开 JSONL 记录条数:111,308

  • 去重 file_id 数:9,655

  • source_type 类别数:35

筛选范围包括元数据完整性、来源可追溯性、授权标记和解析质量。用户在训练、分发或商用前仍需结合具体来源核验授权范围。

数据资产盘点:完整的 Manifest

dataset_manifest.json 保留了公开快照的总体规模、子集规模、语言分布、格式分布和来源类型分布。使用者可以把它作为数据清单,也可以用来做后续版本对比、质量抽检和数据目录登记。

格式分布:

  • PDF:109,069 条(98.0%)

  • JSONL:704 条(0.6%)

  • DOCX:1,528 条(1.4%)

  • DOC:7 条(0.0%)


应用场景:从检索到 Agent 的全链路支撑

CIMD 的设计目标是直接可用于模型与应用。当前公开版本以统一 JSONL 记录格式发布,不是单纯的原始 PDF 堆积。解析后的记录可直接进入检索、切分、标注、训练、评测和服务流程。

应用场景示意图-超清版

场景一:多来源文档检索与 RAG

以企业合规问答助手为例,当用户询问“最新的数据安全法规对我们的业务有什么影响”时,系统可以:

  1. 跨来源检索:同时在 reference_governance(法规政策)、scholarly_literature(学术研究)和 institutional_analysis(机构分析)中检索

  2. 时间过滤:通过 original_time 和 content_time 字段筛选最近 6 个月的材料

  3. 证据归因:在生成回答时,通过 source_type、author 和 source_details 字段标注每条证据的来源

  4. 可追溯性:通过 file_id 和 data_id 回溯到原始文档,支持审计和复核

统一的 JSONL 格式可以直接接入向量数据库,完整的元数据支持精确过滤和来源归因,跨来源结构天然适配多跳推理。

场景二:长文档问答与证据归因

在学术文献分析场景中,研究人员需要从大量论文中提取关键信息并追溯来源。CIMD 的长文档结构支持:

  • 完整上下文:raw_chunk 保留足够长的文本块,保证语义完整性

  • 文档级关联:通过 file_id 将同一文档的多个 chunk 关联起来

  • 时间序列分析:通过 content_time 字段构建研究主题的时间演进图谱

  • 跨语言检索:通过 language 字段支持中英文混合检索

场景三:文档分类与主题标注

在构建企业知识库时,需要对大量文档进行自动分类和主题标注。CIMD 提供:

  • 来源类型标签:35 类 source_type 可以作为分类的先验知识

  • 关键词辅助:keywords 字段提供主题标注的候选词

  • 作者/机构信息:author 字段帮助识别权威来源

  • 多语言支持:language 字段支持构建多语言分类模型

场景四:数据目录与授权审计

在企业数据治理场景中,需要对数据资产进行盘点和授权管理。CIMD 的元数据结构支持:

  • 数据清单:通过 dataset_manifest.json 快速了解数据规模和分布

  • 授权追踪:license_type 字段记录每条记录的授权类型

  • 来源追溯:source_details 字段提供原始来源链接

  • 版本管理:data_version 字段支持数据版本对比

场景五:继续训练语料筛选与评测集构建

在构建垂直领域大模型时,CIMD 可以作为:

  • 预训练语料筛选:按 source_type 和 language 筛选高质量训练样本

  • SFT 数据构建:基于制度参考、学术文献等构建指令数据

  • 评测集构建:按来源家族和时间分层抽样,构建多维度评测集

  • 数据质量控制:通过元数据字段做质量抽检和异常检测


从 Chinese FineWeb 到 CIMD: OpenCSG 的数据战略演进

如果我们回顾 OpenCSG 的数据开源历程,会发现一条清晰的战略演进路径:

第一阶段:通用中文语料(Chinese FineWeb 系列)

这一阶段的目标是为中文大模型提供高质量预训练语料。Chinese FineWeb 被清华大学论文选为 L1 层基础数据,支撑了 CMU H-Net、MiniCPM4 等多个前沿模型,成为中文 AI 研发的必备资源。这一阶段的特点是通用、大规模、高质量

第二阶段:垂直场景语料(CIMD)

这一阶段的目标是为文档智能任务提供专业数据底座。CIMD 实现了从通用走向垂直、从单一来源走向跨来源整合、从语料库走向知识体系、从研究数据集走向数据资产的创新。这一阶段的特点是专业、跨源、体系化、可信

这种演进反映了 OpenCSG 对 AI 发展趋势的深刻洞察:通用大模型是基础,垂直场景 AI 是未来

战略演进路径图-超清版


开源承诺:商业友好,推动文档智能化

CIMD 采用 OpenCSG 数据集许可协议(OpenCSG Dataset License Agreement)。在 Hugging Face 和 OpenCSG 平台的仓库 metadata 中,license 字段标注为 other,表示本数据集采用平台预设列表之外的自定义许可协议;数据集的实际许可条款以 OpenCSG 数据集许可协议为准。

该协议明确支持商业用途。使用者可以将数据集用于研究、评测、验证、内部开发、模型训练、模型微调、检索增强、质量分析和合规审查等场景。如果计划将本数据集、基于本数据集训练或增强的模型、系统、Agent、API 服务或商业产品用于商业场景,需要遵循该协议的相关条款,并发送邮件至 lorraineg@opencsg.com 获取商业许可。

重要说明:当前公开快照中的 license_type: 商业授权 是记录级授权来源标记,不替代仓库级许可协议。

这种开源策略体现了 OpenCSG 的核心理念:既要保护数据来源方的合法权益和知识产权,又要为文档智能发展提供必要的数据支撑。通过清晰的授权边界、完善的合规要求和灵活的商业许可机制,CIMD 为企业合规使用文档数据、构建垂直 AI 能力提供了可信路径。


数据获取与使用指南

通过 Git 获取(推荐)


   

git lfs install 

git clone https://opencsg.com/datasets/OpenCSG/CIMD.git 

cd CIMD 

git lfs pull 

7 个子集说明

1. reference_governance(制度参考)

  • 记录数:90,197 条 | 文件数:6,919 个

  • 内容:法规、政策、标准和合规参考材料

2. scholarly_literature(学术文献)

  • 记录数:17,569 条 | 文件数:2,053 个

  • 内容:学术出版物、长文档资料、学位论文和会议记录

3. enterprise_operations(企业运营)

  • 记录数:1,744 条 | 文件数:64 个

  • 内容:企业资料、运营信息、产能记录、融资材料和项目更新

4. public_discourse(公共讨论)

  • 记录数:1,286 条 | 文件数:545 个

  • 内容:公共讨论、媒体材料和观点记录

5. institutional_analysis(机构分析)

  • 记录数:484 条 | 文件数:68 个

  • 内容:研究机构、协会、咨询机构和金融机构分析材料

6. market_observations(市场观察)

  • 记录数:20 条 | 文件数:2 个

  • 内容:市场、交易和价格相关记录

7. miscellaneous_records(其他记录)

  • 记录数:8 条 | 文件数:4 个

  • 内容:未归入主要来源家族的记录


使用注意事项

  1. 计数单位:当前统计为解析记录数,不等同于去重后的原始文档数。单个源文件可以对应多条记录。

  2. Git LFS:公开子集通过 Git LFS 管理,clone 后需执行 git lfs pull

  3. 数据质量:不同来源之间可能存在重复、近重复或解析噪声。

  4. 时间字段:时间字段可能表示发布时间、内容时间或抽取时间,需结合具体记录判断。

  5. 授权核验:用于训练、分发或商用前,需结合来源信息核验实际授权范围。


展望:从文档智能到更多场景

CIMD 的发布只是 OpenCSG 垂直场景数据战略的第一步。从数据体系的设计来看,这套方法论具有很强的可复制性和可扩展性:

横向扩展:可以复制到更多垂直领域(金融、医疗、法律、教育等),构建领域专属的文档智能语料库。

纵向深化:可以在时间维度上持续更新构建时序数据集,在深度维度上增加更多细分来源和专题,在质量维度上引入更精细的质量分层。

能力升级:可以从单纯的文本语料扩展到多模态文档(包含图表、公式、表格的复杂文档),从静态快照升级到动态更新的知识库。

OpenCSG 正在探索的,是一条从通用 AI 到场景 AI、从语料库到知识体系、从研究数据集到数据资产的完整路径。

行业标杆地位的验证

OpenCSG发布的FineWeb-Edu-Chinese作为全球下载量排名前三的中文预训练数据集,累计下载超百万次,其价值已经得到业界广泛认可:

  • 学术领域:被斯坦福大学、清华大学、中国人民大学高瓴人工智能学院、上海人工智能实验室、北京智源研究院等 20 余家顶尖机构的论文引用。旗下 Chinese Fineweb Edu 已成为中文 NLP 研究的核心数据资源,被 100 + 篇学术论文引用,在 NeurIPS、ACL、EMNLP、ICLR 等国际顶会及 Nature 子刊、JMLR 等权威期刊中作为核心实验数据集,支撑大模型预训练、指令微调等前沿研究,合作机构还包括鹏城实验室、西南电子技术研究所、西班牙国家级超算中心(Barcelona Supercomputing Center)及 Mozilla Data Collective 等全球顶尖科研单位。

  • 产业应用:支撑 Llama3-Chinese、DeepSeek 等知名模型训练,并被中国移动、中国联通、英伟达(NVIDIA)、苹果公司(Apple Inc.)、OPPO、美团、阿里巴巴、蚂蚁集团、面壁智能(ModelBest)、Krafton等领军企业采用。Chinese Fineweb Edu 已从实验室走向产业场景,为创业公司到头部企业的研发团队提供可靠支撑,切实推动中文 NLP 应用从理论落地到生产实践。

  • 生态影响:下载数量累计超百万次,数据体量达 2.42TB,覆盖 9.57 亿条高质量文本,已孵化出 10 余个垂直领域微调模型。同时,OpenCSG 通过开源打分模型和完整工具链,输出数据治理方法论,带动行业从 “模型参数内卷” 转向 “数据基建完善”,显著降低中小开发者与研究机构的入门门槛。

  • 开源生态:OpenCSG 坚持“开源即文化”的理念,通过透明、共创、共享的社区文化,与全球开发者、工程师和 AI 原生企业共同构建智能体生态。

    图片


结语:文档智能的基础设施,从数据开始

当我们谈论 AI 在企业中的落地时,往往聚焦于模型架构、算法优化、算力投入,却容易忽视一个更基础的问题:文档智能需要什么样的数据?

CIMD 给出了一个清晰的答案:文档智能需要的不是简单的网页爬虫数据,而是跨来源整合的专业语料;不是只有正文的纯文本,而是带有完整元数据的数据资产;不是混乱的文件堆积,而是统一格式、可追溯、可审计的记录体系;不是封闭的研究数据集,而是商业友好的开源资源

OpenCSG 通过 CIMD 的开源,正在做一件具有战略意义的事情:为文档智能构建数据基础设施

这不是终点,而是起点。当越来越多的垂直场景拥有像 CIMD 这样的高质量数据集,当数据的组织方式从“文件堆积”升级为“知识体系”,当数据资产的流通从“封闭私有”转向“可信开放”,我们才能真正实现 AI 技术从实验室到产业的跨越。

CIMD 的开源,是文档智能从“能读懂文字”到“真正理解文档”的关键一步。


了解更多:访问 OpenCSG 官网 https://opencsg.com 或关注 OpenCSG 开源社区

商业授权咨询:lorraineg@opencsg.com

引用格式


   

@dataset{opencsg_cimd_2026, 

  title        = {CIMD: A Cross-Source Multilingual Document Corpus}, 

  author       = {OpenCSG}, 

  year         = {2026}, 

  url          = {https://opencsg.com/datasets/OpenCSG/CIMD}, 

  note         = {OpenCSG dataset repository} 

社区地址

OpenCSG社区:https://opencsg.com/datasets/OpenCSG/CIMD

hf社区:https://huggingface.co/datasets/opencsg/CIMD

魔搭社区:https://modelscope.cn/datasets/opencsg/CIMD

关于 OpenCSG

OpenCSG 是全球领先的开源大模型社区平台,致力于打造开放、协同、可持续生态,AgenticOps人工智能领域的一种AI原生方法论,由OpenCSG(开放传神)提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的 一站式托管、协作与共享服务,具备业界领先的模型资产管理能力,支持多角色协同和高效复用。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐