Huggingface微调数据集
·
文章目录
1.垂直领域知识增强
1.1医疗领域 ✅
| 数据集名称 | Huggingface链接 | 说明 |
|---|---|---|
| shibing624/medical | https://huggingface.co/datasets/shibing624/medical | 240万条中文医疗数据集(含预训练、指令微调和奖励数据集) |
| shibing624/huatuo_medical_qa_sharegpt | https://huggingface.co/datasets/shibing624/huatuo_medical_qa_sharegpt | 22万条中文医疗对话数据集(华佗项目),ShareGPT格式 |
1.2金融领域 ✅
| 数据集名称 | Huggingface链接 | 说明 |
|---|---|---|
| BAAI/IndustryInstruction_Finance-Economics | https://huggingface.co/datasets/BAAI/IndustryInstruction_Finance-Economics | 12.2万条金融经济领域指令数据,中文占比32.9% |
1.3法律领域 ⚠️
未找到Huggingface上公开的法律微调指令数据集。欢迎补充。
2.特定交互风格与角色扮演 ✅
| 数据集名称 | Huggingface链接 | 说明 |
|---|---|---|
| shibing624/roleplay-zh-sharegpt-gpt4-data | https://huggingface.co/datasets/shibing624/roleplay-zh-sharegpt-gpt4-data | 7千条中文角色扮演多轮对话数据集,ShareGPT-GPT4格式 |
3.复杂推理与结构化输出
3.1数学推理 ✅
| 数据集名称 | Huggingface链接 | 说明 |
|---|---|---|
| flagopen/InfinityMATH | https://huggingface.co/datasets/flagopen/InfinityMATH | 程序化数学推理指令微调数据集,支持CoT/PoT方法,CIKM 2024论文 |
3.2代码辅助 ⚠️
未在huggingface找到专门的代码微调指令数据集。通用指令数据集中可能包含部分代码数据,但专门针对代码的微调数据集(如CodeAlpaca、Magicoder等)需要另行搜索。
4.对齐人类偏好与安全 ✅
| 数据集名称 | Huggingface链接 | 说明 |
|---|---|---|
| shibing624/DPO-En-Zh-20k-Preference | https://huggingface.co/datasets/shibing624/DPO-En-Zh-20k-Preference | 2万条中英文偏好数据集,适用于DPO/RLHF |
| liyucheng/zhihu_rlhf_3k | https://huggingface.co/datasets/liyucheng/zhihu_rlhf_3k | 3千条中文知乎问答偏好数据集 |
| TRIDENT (GitHub发布,Huggingface待查) | https://github.com/FishT0ucher/TRIDENT | 红队测试安全对齐数据集,含26k+18k条有害指令+道德响应 |
此外,还有大量英文偏好数据集:
Dahoas/full-hh-rlhf
Dahoas/static-hh
OpenAssistant/oasst1
tasksource/oasst1_pairwise_rlhf_reward
5.多语言与本地化适配 ⚠️
未在huggingface找到专门用于多语言微调的中小规模指令数据集。有Lucie项目发布了多语言预训练语料,但更偏向预训练而非微调阶段。
6.长文本与特定格式处理 ✅
| 数据集名称 | Huggingface链接 | 说明 |
|---|---|---|
| THUDM/LongCite-45k | https://huggingface.co/datasets/THUDM/LongCite-45k | 4.46万条长上下文QA实例(最长支持128k词),附带句子级引文,中英文双语 |
7.结构化抽取 ⚠️
未在huggingface中找到专门用于结构化抽取微调的公开数据集。华为云文档中提供了一个催收意图识别的场景数据样例,但该数据未开源,仅为业务场景示例。
8.总结汇总表
| 微调场景 | 是否有Huggingface数据集 | 推荐数据集 |
|---|---|---|
| 医疗领域 | ✅ | shibing624/medical, shibing624/huatuo_medical_qa_sharegpt |
| 金融领域 | ✅ | BAAI/IndustryInstruction_Finance-Economics |
| 法律领域 | ⚠️ | 未找到公开指令数据集 |
| 角色扮演 | ✅ | shibing624/roleplay-zh-sharegpt-gpt4-data |
| 数学推理 | ✅ | flagopen/InfinityMATH |
| 代码辅助 | ⚠️ | 未找到(需另行搜索) |
| 安全对齐 | ✅ | shibing624/DPO-En-Zh-20k-Preference, TRIDENT |
| 多语言 | ⚠️ | 未找到专用微调数据集 |
| 长文本 | ✅ | THUDM/LongCite-45k |
| 结构化抽取 | ⚠️ | 未找到公开数据集 |
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)