国内首个矿冶行业垂直大模型数据集开源！38万+条记录，支持商业使用

OpenCSG

255人浏览 · 2026-04-07 08:00:00

OpenCSG · 2026-04-07 08:00:00 发布

从通用语料到行业智能，OpenCSG发布CIMD数据集，填补中文垂直领域语料空白

一、为什么垂直行业大模型需要"专业教材"？

做大模型开发的都知道一个痛点：通用大模型虽然能聊天，但面对专业问题经常"胡说八道"。

比如问它"2024年铁矿石进口政策有什么变化"，它可能泛泛而谈，但无法准确引用具体法规条文、政策文件、行业研究报告的原文出处。这就是缺乏垂直领域高质量训练数据的典型表现。

OpenCSG最近开源的CIMD数据集（Cross-Source Industry Corpus for Iron Ore, Mining, Metallurgy），正是为了解决这个痛点而生。这是国内首个面向矿冶产业链的跨来源文本数据集，38万+条记录，覆盖法律法规、学术论文、行业报告、市场数据、舆情信息五大维度。

二、CIMD数据集核心亮点

1. 数据规模：不是简单的"大"，而是"全"

表格

维度	数据量	说明
有效记录	382,425条	JSONL格式，可直接用于训练
去重文件	57,622个	避免重复数据干扰
来源类型	52种	覆盖产业链全环节
语言分布	中文60.7% / 英文30.1%	支持中英双语模型训练

11个子集分类（可直接按需加载）：

state_laws：法律法规（9.9万条）
chinese_journals：中文期刊论文（2.8万条）
domestic_conference_papers：国内会议论文（5.8万条）
doctoral_dissertations：博士学位论文（3.8万条）
international_journal_of_mining_science_and_technology：国际期刊（1.7万条）
industry_research_reports：行业研究报告（1.4万条）
public_opinion：舆情数据（3.1万条）
sintering_and_pelletizing：烧结球团专题（9,558条）
ironmaking：炼铁专题（8,002条）
books：图书资料（6.4万条）

2. 跨来源整合：打破数据孤岛

CIMD最大的创新在于将制度文本、技术文本、研究文本、经营文本和市场文本放入同一数据体系。

比如分析"某地区铁矿石开采是否符合环保政策"这个问题，模型可以同时调用：

法律法规：国家环保法律、地方政策文件
技术标准：采选工艺标准、排放标准
学术研究：矿石品位分析、环境影响评估论文
市场信息：产能产量数据、企业经营状况
舆情观点：行业协会报告、券商研究

这种跨来源证据链设计，让AI能够像行业专家一样进行联合推理，而不是孤立回答。

3. 权威来源+完整元数据

数据来源包括国家法律法规数据库、学术期刊、科研院所、行业协会、券商机构等权威渠道。每条记录都保留source_details字段，可追溯原始出处，满足企业合规审计需求。

元数据字段完整：file_id、data_id、title、source_type、author、original_time、content_time、language、keywords、license_type等，方便筛选、过滤和质量控制。

4. 商业友好许可

采用OpenCSG Dataset License Agreement，明确支持商业用途。可用于研究、模型训练、微调、RAG系统、Agent开发、商业产品等场景（需遵循协议条款）。

三、实际应用场景

场景1：垂直领域RAG系统

构建铁矿石产业智能问答助手，用户提问后系统可基于法律法规库、政策文件库、行业研究库进行多跳检索，生成带来源标注的完整答案。

场景2：行业Agent工作流

矿企合规审查Agent：自动检索相关法规→查询企业信息→对比行业标准→分析舆情报告→生成合规评估报告。

场景3：领域继续预训练与SFT

预训练阶段：使用全量38万+记录注入领域知识
SFT阶段：基于法规问答、技术问答构建指令数据
评测阶段：构建行业基准测试集

场景4：知识图谱构建

支持矿企名称、矿区地点、技术术语实体识别，企业-产能、政策-影响关系抽取，政策发布、产能变化事件抽取。

四、快速上手：两种获取方式

方式一：Git克隆（推荐）

bash复制# 安装Git LFS git lfs install # 克隆仓库 git clone https://opencsg.com/datasets/OpenCSG/CIMD.git cd CIMD git lfs pull

方式二：Hugging Face datasets

Python复制from datasets import load_dataset # 加载全部数据 dataset = load_dataset("OpenCSG/CIMD", split="train") # 或加载指定子集（如法律法规） dataset = load_dataset( "OpenCSG/CIMD", "state_laws", # 可选子集名称 split="train", streaming=True, # 大数据量建议开启流式加载 )

数据格式示例：

JSON复制{ "file_id": "xxx", "data_id": "yyy", "title": "铁矿石行业环保政策解读", "source_type": "policy_document", "author": "xxx", "original_time": "2024-03-15", "content_time": "2024-03-15", "language": "zh", "keywords": ["铁矿石", "环保政策", "排放标准"], "content": "正文内容...", "source_details": "原始来源信息...", "license_type": "OpenCSG Dataset License" }

五、从Chinese FineWeb到CIMD：OpenCSG的数据战略

OpenCSG的数据开源路径很清晰：

表格

阶段	代表数据集	特点	支撑模型
第一阶段	Chinese FineWeb系列	通用中文语料、大规模、高质量	清华大学L1层基础数据、CMU H-Net、MiniCPM4
第二阶段	CIMD	垂直行业、跨来源整合、知识体系化、可信数据资产	矿冶行业垂直大模型