19个大模型常用的评估数据集和训练数据集汇总
·
19个大模型常用的评估数据集和训练数据集汇总
名称 | 简介 | 测试(数据量) | 训练(数据量) | 地址 |
---|---|---|---|---|
CEval | 中文选择题测试,包括中学、高中、大学的多个学科 | √,13948 | × | https://huggingface.co/datasets/ceval/ceval-exam |
GSM8K | 小学数学题目,通过最后的数字检测正确与否 | √,1320 | √,8790 | https://huggingface.co/datasets/gsm8k |
MMLU | 英文选择题测试,包括中学、高中、大学的多个学科 | √,14042 | √,99842 | https://huggingface.co/datasets/cais/mmlu |
TruthQA | 模型幻觉问题,通过关键字和选择题检测是否正确 | √,817*2 | × | https://huggingface.co/datasets/truthful_qa |
glue | 通用的语言理解和评估的数据集,判断前提是否可以支撑后面的假设和判断句子是否正确,以此检测模型的语言理解能力。包括了多个子数据集,有些子数据集有训练数据,有些没有 | √,—— | √,—— | https://huggingface.co/datasets/glue |
OpenHermes-2.5 | 英文对话数据集,用于提升大模型的能力 | × | √,1000000 | https://huggingface.co/datasets/teknium/OpenHermes-2.5 |
LongBench | 英文长文本评估集,给出一段长文本和一个问题,通过关键词判断是否回答正确 | √,—— | × | https://huggingface.co/datasets/THUDM/LongBench |
Bigbench | 英文多选题,选择文本中隐含的谚语 | √,600 | √,2400 | https://huggingface.co/datasets/tasksource/bigbench |
SQuAD | 斯坦福问答数据集(SQuAD)是一个阅读理解数据集,由一组维基百科文章上的众筹者提出的问题组成,其中每个问题的答案都是相应阅读文章中的一段文字或一段时间,或者问题可能无法回答。通过关键词判断是否回答正确 | √,106000 | √,876000 | https://huggingface.co/datasets/squad |
databricks-dolly-15k-curated-en | 一个英文对话数据集,与其他对话数据不同的是提供了原数据和改进的版本。该项目的目的是纠正指令、输入和响应,以确保它们具有最高的质量,并且与它们所属的任务类别相匹配。所有三个文本都应该清晰并包含真实信息。此外,回答应尽可能完整但简洁。 | × | √,15000 | https://huggingface.co/datasets/argilla/databricks-dolly-15k-curated-en |
WizardLM_evol_instruct_V2_196k | 使用Evol-Instruct让chatgpt自生产的对话数据 | × | √,143000 | https://huggingface.co/datasets/WizardLM/WizardLM_evol_instruct_V2_196k |
ultrachat\_200k | 借助chatgpt生成的对话数据 | √,51400 | √,464000 | https://huggingface.co/datasets/HuggingFaceH4/ultrachat\_200k |
emotion | 情感数据集,给出一句话判断其包含的情感,例如,sadness,anger,fear等 | √,2000 | √,16000 | https://huggingface.co/datasets/dair-ai/emotion |
GPT4-LLM-Cleaned | 借助GPT-4生成的英文对话数据 | × | √,54600 | https://huggingface.co/datasets/teknium/GPT4-LLM-Cleaned |
LLaVA-Instruct-150K | LLaVA多模态对话数据,基于图片的聊天 | × | √,150000 | https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K |
midjourney-v5-202304-clean | 文生图的多模态数据,爬取自midjourney v5的2023年4月的数据 | × | √,1701420 | https://huggingface.co/datasets/wanng/midjourney-v5-202304-clean |
diffusiondb | 文本生成图片数据,包含prompt和image | × | √,16000000 | https://huggingface.co/datasets/poloclub/diffusiondb |
apps | 代码生成数据集,用于检测模型的代码生成能力 | √,5000 | √,5000 | https://huggingface.co/datasets/codeparrot/apps |
apps | 代码生成数据集,用于检测模型的代码生成能力 | √,5000 | √,5000 | https://huggingface.co/datasets/codeparrot/apps |
alpaca-cleaned | Alpaca是由OpenAI的text-davinci-003引擎生成的包含52,000条指令和演示的数据集。这些指令数据可用于对语言模型进行指令调整,使语言模型更好地跟随指令。alpaca-cleaned是斯坦福大学发布的原始数据集的清理版本。 | × | √,52000 | https://huggingface.co/datasets/tatsu-lab/alpaca |
更多推荐
已为社区贡献5条内容
所有评论(0)