19个大模型常用的评估数据集和训练数据集汇总

名称简介测试(数据量)训练(数据量)地址
CEval中文选择题测试,包括中学、高中、大学的多个学科√,13948×https://huggingface.co/datasets/ceval/ceval-exam
GSM8K小学数学题目,通过最后的数字检测正确与否√,1320√,8790https://huggingface.co/datasets/gsm8k
MMLU英文选择题测试,包括中学、高中、大学的多个学科√,14042√,99842https://huggingface.co/datasets/cais/mmlu
TruthQA模型幻觉问题,通过关键字和选择题检测是否正确√,817*2×https://huggingface.co/datasets/truthful_qa
glue通用的语言理解和评估的数据集,判断前提是否可以支撑后面的假设和判断句子是否正确,以此检测模型的语言理解能力。包括了多个子数据集,有些子数据集有训练数据,有些没有√,——√,——https://huggingface.co/datasets/glue
OpenHermes-2.5英文对话数据集,用于提升大模型的能力×√,1000000https://huggingface.co/datasets/teknium/OpenHermes-2.5
LongBench英文长文本评估集,给出一段长文本和一个问题,通过关键词判断是否回答正确√,——×https://huggingface.co/datasets/THUDM/LongBench
Bigbench英文多选题,选择文本中隐含的谚语√,600√,2400https://huggingface.co/datasets/tasksource/bigbench
SQuAD斯坦福问答数据集(SQuAD)是一个阅读理解数据集,由一组维基百科文章上的众筹者提出的问题组成,其中每个问题的答案都是相应阅读文章中的一段文字或一段时间,或者问题可能无法回答。通过关键词判断是否回答正确√,106000√,876000https://huggingface.co/datasets/squad
databricks-dolly-15k-curated-en一个英文对话数据集,与其他对话数据不同的是提供了原数据和改进的版本。该项目的目的是纠正指令、输入和响应,以确保它们具有最高的质量,并且与它们所属的任务类别相匹配。所有三个文本都应该清晰并包含真实信息。此外,回答应尽可能完整但简洁。×√,15000https://huggingface.co/datasets/argilla/databricks-dolly-15k-curated-en
WizardLM_evol_instruct_V2_196k使用Evol-Instruct让chatgpt自生产的对话数据×√,143000https://huggingface.co/datasets/WizardLM/WizardLM_evol_instruct_V2_196k
ultrachat\_200k借助chatgpt生成的对话数据√,51400√,464000https://huggingface.co/datasets/HuggingFaceH4/ultrachat\_200k
emotion情感数据集,给出一句话判断其包含的情感,例如,sadness,anger,fear等√,2000√,16000https://huggingface.co/datasets/dair-ai/emotion
GPT4-LLM-Cleaned借助GPT-4生成的英文对话数据×√,54600https://huggingface.co/datasets/teknium/GPT4-LLM-Cleaned
LLaVA-Instruct-150KLLaVA多模态对话数据,基于图片的聊天×√,150000https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K
midjourney-v5-202304-clean文生图的多模态数据,爬取自midjourney v5的2023年4月的数据×√,1701420https://huggingface.co/datasets/wanng/midjourney-v5-202304-clean
diffusiondb文本生成图片数据,包含prompt和image×√,16000000https://huggingface.co/datasets/poloclub/diffusiondb
apps代码生成数据集,用于检测模型的代码生成能力√,5000√,5000https://huggingface.co/datasets/codeparrot/apps
apps代码生成数据集,用于检测模型的代码生成能力√,5000√,5000https://huggingface.co/datasets/codeparrot/apps
alpaca-cleanedAlpaca是由OpenAI的text-davinci-003引擎生成的包含52,000条指令和演示的数据集。这些指令数据可用于对语言模型进行指令调整,使语言模型更好地跟随指令。alpaca-cleaned是斯坦福大学发布的原始数据集的清理版本。×√,52000https://huggingface.co/datasets/tatsu-lab/alpaca
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐