1.垂直领域知识增强

1.1医疗领域 ✅

数据集名称 Huggingface链接 说明
shibing624/medical https://huggingface.co/datasets/shibing624/medical 240万条中文医疗数据集(含预训练、指令微调和奖励数据集)
shibing624/huatuo_medical_qa_sharegpt https://huggingface.co/datasets/shibing624/huatuo_medical_qa_sharegpt 22万条中文医疗对话数据集(华佗项目),ShareGPT格式

1.2金融领域 ✅

数据集名称 Huggingface链接 说明
BAAI/IndustryInstruction_Finance-Economics https://huggingface.co/datasets/BAAI/IndustryInstruction_Finance-Economics 12.2万条金融经济领域指令数据,中文占比32.9%

1.3法律领域 ⚠️

未找到Huggingface上公开的法律微调指令数据集。欢迎补充。

2.特定交互风格与角色扮演 ✅

数据集名称 Huggingface链接 说明
shibing624/roleplay-zh-sharegpt-gpt4-data https://huggingface.co/datasets/shibing624/roleplay-zh-sharegpt-gpt4-data 7千条中文角色扮演多轮对话数据集,ShareGPT-GPT4格式

3.复杂推理与结构化输出

3.1数学推理 ✅

数据集名称 Huggingface链接 说明
flagopen/InfinityMATH https://huggingface.co/datasets/flagopen/InfinityMATH 程序化数学推理指令微调数据集,支持CoT/PoT方法,CIKM 2024论文

3.2代码辅助 ⚠️

未在huggingface找到专门的代码微调指令数据集。通用指令数据集中可能包含部分代码数据,但专门针对代码的微调数据集(如CodeAlpaca、Magicoder等)需要另行搜索。

4.对齐人类偏好与安全 ✅

数据集名称 Huggingface链接 说明
shibing624/DPO-En-Zh-20k-Preference https://huggingface.co/datasets/shibing624/DPO-En-Zh-20k-Preference 2万条中英文偏好数据集,适用于DPO/RLHF
liyucheng/zhihu_rlhf_3k https://huggingface.co/datasets/liyucheng/zhihu_rlhf_3k 3千条中文知乎问答偏好数据集
TRIDENT (GitHub发布,Huggingface待查) https://github.com/FishT0ucher/TRIDENT 红队测试安全对齐数据集,含26k+18k条有害指令+道德响应

此外,还有大量英文偏好数据集:

Dahoas/full-hh-rlhf

Dahoas/static-hh

OpenAssistant/oasst1

tasksource/oasst1_pairwise_rlhf_reward

5.多语言与本地化适配 ⚠️

未在huggingface找到专门用于多语言微调的中小规模指令数据集。有Lucie项目发布了多语言预训练语料,但更偏向预训练而非微调阶段。

6.长文本与特定格式处理 ✅

数据集名称 Huggingface链接 说明
THUDM/LongCite-45k https://huggingface.co/datasets/THUDM/LongCite-45k 4.46万条长上下文QA实例(最长支持128k词),附带句子级引文,中英文双语

7.结构化抽取 ⚠️

未在huggingface中找到专门用于结构化抽取微调的公开数据集。华为云文档中提供了一个催收意图识别的场景数据样例,但该数据未开源,仅为业务场景示例。

8.总结汇总表

微调场景 是否有Huggingface数据集 推荐数据集
医疗领域 shibing624/medical, shibing624/huatuo_medical_qa_sharegpt
金融领域 BAAI/IndustryInstruction_Finance-Economics
法律领域 ⚠️ 未找到公开指令数据集
角色扮演 shibing624/roleplay-zh-sharegpt-gpt4-data
数学推理 flagopen/InfinityMATH
代码辅助 ⚠️ 未找到(需另行搜索)
安全对齐 shibing624/DPO-En-Zh-20k-Preference, TRIDENT
多语言 ⚠️ 未找到专用微调数据集
长文本 THUDM/LongCite-45k
结构化抽取 ⚠️ 未找到公开数据集
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐