IMDb电影评论情感分析数据集10万条标注与无标注数据

zhaotaiyangya

650人浏览 · 2026-04-29 16:17:44

zhaotaiyangya · 2026-04-29 16:17:44 发布

引言与背景

在自然语言处理和情感分析领域，高质量的标注数据集是训练和验证机器学习模型的基础。IMDb电影评论数据集作为情感分析任务的经典基准数据集，一直受到学术界和工业界的广泛关注。本数据集包含10万条电影评论数据，其中5万条带有情感标注，5万条为无标注数据，为情感分析模型的训练提供了丰富的资源。>https://dianshudata.com/dataDetail/14798

该数据集涵盖了多样化的电影评论内容，包括不同年代、不同类型电影的观众反馈，能够有效反映真实的情感表达场景。无论是用于学术研究、算法开发还是工业应用，这套数据集都具有重要的价值。通过分析这些评论数据，研究人员可以深入了解观众情感倾向，开发更精准的情感分析模型。

数据基本信息

数据集构成

本数据集包含两个CSV文件：

imdb_sup.csv：50000条有标注的电影评论数据，每条记录包含评论文本、评分和情感标签
imdb_unsup.csv：50000条无标注的电影评论数据，仅包含评论文本

字段说明

字段名称	字段类型	字段含义	数据示例	完整性
Review	String	电影评论文本内容	“Kurt Russell’s chameleon-like performance…”	100%
Rating	Integer	用户对电影的评分（1-10分）	10	100%
Sentiment	Integer	情感标签（0表示负面，1表示正面）	1	100%

数据分布情况

情感标签分布

情感标签	记录数量	占比
正面（1）	25000	50%
负面（0）	25000	50%
总计	50000	100%

评分分布（基于Rating字段）

评分	记录数量	占比
10分	约12500	25%
1分	约12500	25%
其他评分	约25000	50%
总计	50000	100%

数据规模与特征

总数据量：100000条电影评论
有标注数据：50000条（含情感标签和评分）
无标注数据：50000条（仅含评论文本）
数据格式：CSV格式，易于读取和处理
语言：英文
内容覆盖：涵盖多种类型电影的观众评论

数据优势

优势特征	具体表现	应用价值
数据规模庞大	包含10万条电影评论，涵盖广泛的电影类型和观众反馈	支持大规模模型训练，提升模型泛化能力
标注质量高	情感标签由人工标注，正负样本比例均衡（50:50）	适合作为基准数据集，确保模型训练的公平性
数据多样性	评论长度从短句到长篇大论不等，情感表达丰富多样	提高模型对不同表达形式的理解能力
包含无标注数据	5万条无标注数据可用于半监督学习	降低标注成本，提升模型性能
评分信息完整	每条标注数据都包含1-10分的评分信息	支持回归任务和多分类任务
格式规范统一	标准CSV格式，易于使用Python、R等工具处理	降低数据预处理成本，提高开发效率

数据样例

以下展示的是有标注数据集（imdb_sup.csv）的部分样例：

Review: “Kurt Russell’s chameleon-like performance is nothing short of brilliant. He truly embodies the character.”
Rating: 10
Sentiment: 1（正面）
Review: “It was extremely low budget and the acting was terrible. Save your time.”
Rating: 1
Sentiment: 0（负面）
Review: “James Cagney is best known for his tough guy roles, and this film showcases his talent perfectly.”
Rating: 9
Sentiment: 1（正面）
Review: “Following the brilliant ‘Goyôkiba’, this sequel fails to live up to expectations.”
Rating: 4
Sentiment: 0（负面）
Review: “One of the last classics of the French New Wave, this film is a masterpiece of cinematography.”
Rating: 10
Sentiment: 1（正面）
Review: “The Straight Story is a truly beautiful film about friendship and redemption.”
Rating: 9
Sentiment: 1（正面）
Review: “Four teenage girlfriends drive to a cabin in the woods… and the movie just gets worse from there.”
Rating: 2
Sentiment: 0（负面）
Review: “I haven’t seen all of Jess Franco’s films, but this one is definitely among his best works.”
Rating: 8
Sentiment: 1（正面）
Review: “What’s in a name? If the name is John Carpenter, you know you’re in for a treat.”
Rating: 9
Sentiment: 1（正面）
Review: “Batman: Mystery of the Batwoman is a disappointing entry in the animated series.”
Rating: 3
Sentiment: 0（负面）

应用场景

情感分析模型训练

该数据集是情感分析领域最常用的基准数据集之一，广泛应用于训练和评估各种机器学习模型。研究人员可以利用有标注的5万条数据训练监督学习模型，如支持向量机、朴素贝叶斯、深度学习模型等。同时，5万条无标注数据可以用于半监督学习或自监督学习任务，进一步提升模型性能。通过在该数据集上训练模型，可以开发出能够自动识别文本情感倾向的系统，应用于舆情分析、客户反馈分析等实际场景。