数据科学与机器学习 week8 文本挖掘
一、什么是文本挖掘 What is text mining
课程主题:文本挖掘(Text Mining)
一、基本概念
- 文本挖掘(也称文本分析)是人工智能(AI)在自然语言处理(NLP)领域的具体应用。
- 目的:从大量非结构化文本(如邮件、博客、社交媒体、历史档案)中提取有价值信息。
- 与数据挖掘的区别:
- 数据挖掘:处理结构化数值数据。
- 文本挖掘:处理非结构化文本数据。
二、AI在文本挖掘中的作用
- 使用NLP、机器学习算法、模式识别技术。
- 实现提取、探索、模式识别等功能。
- 随着数据量指数级增长,AI驱动的文本挖掘成为处理海量信息的重要工具。
三、应用案例
1. 历史与意识形态研究
- 分析历史文献、演讲、私人信件。
- 例如:通过文本挖掘分析美国是否是“基督教国家”的争论。
- 优势:基于可测量的语言模式,超越主观解释。
2. 娱乐与媒体(如《美国偶像》)
- 2010年5月,通过分析社交媒体评论、推文等,预测冠军为Lee DeWyze。
- 展示了基于受众情绪的实时预测能力。
3. 国家安全与反恐
- NSA在11年内收集15–20万亿条数据,利用AI分析文本通信。
- 通过关键词、模式、异常识别潜在威胁。
4. 执法与公共安全
- 检测社交媒体上的威胁信息。
- 可立即分析并采取行动,预防犯罪。
- 但也引发隐私与监控的伦理争议。
四、总结与展望
- 文本挖掘已广泛应用于历史、娱乐、安全、执法等领域。
- 随着非结构化文本数据持续增长,AI驱动的文本挖掘将更加关键。
- 伦理问题:
- 隐私保护
- 知识产权
- 安全与个人自由的平衡
补充一、文本挖掘与数据挖掘的关系 Forerunners of text mining
课程主题:文本挖掘是数据挖掘的子集吗?
一、主流观点:文本挖掘是数据挖掘的子集
- 学术界与工业界普遍认为文本挖掘属于数据挖掘的子集。
- 在ICDM等数据挖掘顶级会议中,文本挖掘论文常被归入数据挖掘轨道。
- 部分网站(如infomanel)也明确将文本 Mining 列为数据 Mining 的子集。
- 这种观点暗示了一种层次关系:数据挖掘是更大的领域。
二、定义上的本质区别
| 维度 | 数据挖掘 | 文本挖掘 |
|---|---|---|
| 输入数据 | 结构化数据(关系数据库、数据仓库) | 非结构化或半结构化文本(邮件、社交媒体、网页等) |
| 数据形式 | 行与列代表明确变量 | 缺乏内在结构,包含自然语言 |
| 目标 | 发现模式、趋势、关系 | 提取含义、主题、情感 |
三、支持“子集说”的理由
- 文本挖掘先通过TF-IDF、词袋模型、n-gram、词嵌入(Word2Vec、Glove、BERT等) 将非结构化文本转化为结构化向量。
- 然后可应用标准数据挖掘算法:聚类、分类、预测。
- 从这个操作角度看,文本挖掘是进入数据挖掘框架的专门入口。
四、反对“子集说”的理由
1. 结构化输出不完全等同于数值变量
- 开放问卷编码为类别变量,只适合频率分析或简单统计。
- 不适合主成分分析等高级建模,除非进一步(往往任意的)编码。
2. 转换过程会丢失语境与细微差别
- 文本含有歧义、讽刺、隐喻、文化背景,转化为数字后容易丢失。
- 即使BERT、GPT等先进模型能更好保留语义,向量化后的输出仍不易被传统数据挖掘算法直接使用。
3. 方法和工具的差异
- 文本挖掘核心流程源于计算语言学与NLP:
- 分词
- 词性标注
- 句法解析
- 命名实体识别
- 情感分析
- 语义建模
- 这些在传统数据挖掘工具中没有直接对应项。
五、更准确的关系模型:维恩图(交集关系)
- 不是小圆(文本挖掘)完全在大圆(数据挖掘)内。
- 而是两个相交的圆:
- 交集:共享的技术(分类、聚类)与共同目标(发现模式、生成洞察)。
- 各自保留独立的区域(独特的方法论与工具)。
六、比喻:从“主从关系”到“两位大师”
- 层级关系暗示:数据挖掘是“全知主人”,文本挖掘是“从属仆人”。
- 更准确的比喻:两位各自精通领域的大师,路径平行,携手合作时能互补优势。
七、结论:开放性问题
- 从目标与共享技术角度看,称文本 mining 为数据 mining 的子集并非错误。
- 但从严格技术与概念角度看,文本 mining 包含独特挑战(预处理、表示、解释),扩展了数据挖掘的边界,而非仅仅居于其内。
- 这是一个建设性辩论,随着NLP与机器学习不断发展,两者关系将持续变化。
- 实践者应理解其区别与协同,以便有效利用结构化与非结构化数据。
二、文本挖掘的先驱 Forerunners of text mining
课程主题:文本挖掘的先驱——从传统定性分析到AI驱动
一、核心观点
- 文本挖掘并非全新概念,而是传统定性研究方法的演进与延伸。
- 传统方法(如内容分析、扎根理论)长期以来依靠人工分析文本、视觉或音频内容,以识别模式、主题和潜在含义。
二、传统定性研究方法
1. 内容分析(Content Analysis)
- 目标:对数据进行分类与解释。
- 应用示例:
- 宗教研究:分类18世纪瑞典圣诗,检测对教会正统的潜在挑战。
- 政治学:Lasswell团队用于宣传研究,理解大众传播如何影响舆论。
- 心理学:Gordon Allport用于人格测试数据分析。
2. 扎根理论(Grounded Theory)
- 目标:通过迭代编码与比较生成理论。
- 关键要求:研究者必须搁置所有先入之见。
- 挑战:这一理想状态说起来容易,做起来难。
三、人工定性分析的局限性
案例研究:作者与Marcus Mendoza关于监狱工作人员对监禁态度的研究
- 分析开放回答,判断狱警倾向:
- 报应(Retribution)
- 威慑(Deterrence)
- 改造(Rehabilitation)
- 问题:人工分析极其繁琐耗时,需要处理大量文本数据。
- 解决方案:AI可自动化这些任务,显著减轻人工负担。
四、关键先驱人物:Don R. Swanson
1. 背景
- 学历:加州大学伯克利分校理论物理学博士
- 职业:物理学家 → 芝加哥大学图书馆学研究生院教授兼院长
- 非生物医学专业出身
2. 核心贡献:概念链接(Concept Linking)
- 方法:通过仔细审视现有文献,识别看似不相关概念之间的关系。
- 目的:生成新假设。
3. 经典案例(1986年)
| 步骤 | 内容 |
|---|---|
| 文献分析 | 考察医学文献 |
| 提出假设 | 鱼油摄入 → 降低血液黏度 → 与雷诺氏病(Reynold’s disease)存在关联 |
| 验证 | DiGiacomo, Kremer & Shah(1989)通过实验研究证实该假设 |
| 后续成功 | 同一方法应用于 压力、偏头痛与镁缺乏 的关联研究,亦获实证支持 |
4. 意义
- Swanson证明了:通过系统文本分析可以提取隐性知识(Latent Knowledge)。
- 他的方法为现代文本挖掘技术奠定了基础。
- 展示了跨学科方法如何带来突破性发现。
五、从传统到现代的演进
| 维度 | 传统定性分析 | 现代文本挖掘 |
|---|---|---|
| 执行方式 | 人工手动 | AI驱动(NLP、LLM) |
| 效率 | 繁琐、耗时 | 快速、自动化 |
| 方法基础 | 内容分析、扎根理论 | 概念链接、NLP、机器学习 |
| 核心价值 | 分类、解释、理论构建 | 模式识别、假设生成、大规模分析 |
六、结论
- 文本挖掘深深扎根于内容分析与扎根理论等传统定性方法。
- 从人工到AI的转变简化了研究流程,提高了效率。
- Don R. Swanson的概念链接工作,证明了通过文本分析揭示隐藏知识的巨大潜力。
- 文本挖掘不是新趋势,而是成熟方法论的高级扩展。
七、关键术语速记
| 术语 | 含义 |
|---|---|
| 内容分析 | 分类与解释数据 |
| 扎根理论 | 通过编码与比较生成理论 |
| 概念链接 | 发现不同概念之间的关系 |
| 隐性知识 | 未明确表达但可通过分析提取的知识 |
| 跨学科 | 结合不同领域的方法与视角 |
三、自然语言处理与大预言模型 NLP and LLM
课程主题:自然语言处理(NLP)——文本挖掘的基础
一、NLP的基本定位
- 定义:NLP是人工智能(AI)与计算语言学的关键子领域,是文本挖掘的基石。
- 作用:
- 增强扎根理论、概念链接等方法论,实现数据分析自动化。
- 软件不仅要处理单词,还要理解上下文,才能生成准确解释。
- 没有NLP,文本挖掘将无法捕捉人类语言的复
- 杂性与细微差别。
二、大语言模型(LLMs)的进步
- LLMs是NLP的重大进展,依赖海量数据集处理和生成类人文本。
- 代表模型:OpenAI的GPT-4、GPT-4.5(代号Orion)。
- 参数(Parameters)的含义:
- 定义模型学习与生成文本能力的数值。
- 训练过程中不断调整的学习权重。
- 与编程中的变量不同:变量是存储位置;LLM参数是优化文本处理的权重。
- 参数越多 → 模型对语言的理解越复杂、越细腻。
参数规模示例(未公开确认,业界推测):
| 模型 | 推测参数数量 |
|---|---|
| GPT-4 | 1.76 万亿 |
| GPT-4.5 (Orion) | 12 万亿 |
三、LLMs的训练方式
- 数据来源:书籍、文章、网页等大量文本。
- 学习方式:自监督学习,无需人工标注。
- 学习内容:
- 语言模式
- 关系
- 句法结构
- 结果:能够预测、生成、响应人类输入,模拟自然交流。
四、ChatBot(聊天机器人)——LLM的前端应用
- 作用:提供用户友好的对话界面。
- 典型例子:
- OpenAI的ChatGPT
- Microsoft Copilot
- Meta AI的Llama
- 可实现的功能:
- 解释用户查询
- 生成回答
- 总结文章
- 回答技术问题
- 交互式讲故事
关系总结:LLM在后台运行,ChatBot在前台提供交互界面,使NLP技术可被广泛使用。
五、结论
- NLP是AI的核心组成部分,支撑着文本挖掘、大语言模型、聊天机器人三大应用方向。
- 面临挑战:语言歧义性仍然存在,需要持续研究与优化。
- 未来展望:NLP将进一步提升AI处理、理解、生成人类语言的能力,成为现代计算中不可或缺的工具。
四、自然语言处理的挑战 challenges of NLP
课程主题:NLP的主要挑战——语言中的歧义与复杂性
一、核心问题:人类语言的复杂性与歧义性
- NLP面临的最大困难:词义依赖上下文而变化。
- 模型必须能够辨别上下文差异,才能准确处理语言。
二、词义歧义(Lexical Ambiguity)示例
| 词语 | 不同含义示例 |
|---|---|
| book | • 预订(I book a ticket) • 书(read a book) |
| senior | 高年级学生、老年人、高级经理 |
| sex | 生物性别、教育政策中的“性”教育 |
三、句法与语义的交互作用
- 句子理解同时受语义(词义)和句法(词语排列方式)影响。
- 经典例子:
- “The spy saw the man with the binoculars”
- 歧义:间谍用望远镜看?还是那个男人拿着望远镜?
- “The bird saw the man with the binoculars”
- 歧义减少:鸟通常不会使用望远镜。
- “The spy saw the man with the binoculars”
说明:人类认知会同时整合句法与语义,NLP系统需要模拟这种能力。
四、历史文化背景缺失导致的歧义
例1:新闻标题
“Soviet Virgin Lands Short of Goal Again”
- 表面理解(无背景):可能以为是苏联的某次航班着陆失败。
- 实际含义:“处女地运动”是1950年代苏联的一项农业计划,该标题指农业产量未达标。
- 问题:AI缺乏历史文化背景知识,除非专门训练过。
补充背景:该农业计划因基础设施差、生活条件恶劣、粮食储存不足而失败,导致大量粮食浪费。
例2:新闻标题(福克兰战争期间)
“British Left Waffles on Falkland Island”
- 表面理解:英国人把华夫饼留在了岛上。
- 实际含义:描述英国政界对福克兰危机的犹豫不决(waffles 此处意为“犹豫/含糊其辞”)。
- 问题:AI难以理解习语表达,除非训练过大量文化与历史数据集。
五、结构歧义(Structural Ambiguity)示例
以下标题均可产生多种合理解释:
| 标题示例 | 歧义说明 |
|---|---|
| The student failed the professor | 谁失败?谁导致失败? |
| Eye drops off shelf | 眼睛从架子上掉下来?/ 眼药水下架? |
| Teacher strikes idle kids | 老师打懒惰的孩子?/ 老师罢工导致孩子闲着? |
| Farmer Bill dies in house | 名叫Bill的农夫去世?/ 关于农业的法案(Bill)在众议院未通过? |
| Iraqi head seeks arms | 伊拉克领导人寻求武器?/ 伊拉克的头部寻找手臂? |
有些歧义只能通过真实世界的额外知识来消解。
六、总结与展望
-
核心挑战:
- 多义词(词义歧义)
- 上下文依赖
- 句法结构歧义
- 习语表达
- 历史文化背景缺失
-
当前局限:
- AI虽然在语言处理上取得了显著进步,但仍难以像人类那样轻松消解歧义。
- 难以理解超出表层句法和定义的深层含义。
-
未来方向:
- 持续改进机器学习方法
- 增强上下文感知能力
- 更好整合外部知识(历史、文化、常识)
最终结论:像人类一样完全理解并处理语言,仍然是AI面临的最大挑战之一。
…
五、自然语言处理的步骤 Steps of NLP
课程主题:NLP的主要步骤与挑战
一、NLP的核心处理流程
NLP从原始文本中提取有意义的词和短语,通常包含以下三大步骤:
-
预处理(Pre-processing)
- 分词
- 停用词移除
- 词干提取
- 词形还原
-
分类(Categorization)
- 将词和短语归类到概念或主题中
-
概念链接(Concept Linking)
- 识别概念之间的关系
理想情况下,NLP系统应自动完成这些步骤以提高效率与准确性。某些软件(如AutoMap)需要大量人工预处理,效率较低。
二、预处理的关键技术
1. 分词(Tokenization)
- 定义:将文本切分为有意义的单元,同时保留上下文。
- 关键点:标点符号的处理需谨慎。
- 示例:IP地址
129.2.13.105中的点不能删除,否则变成129213105,失去意义。
2. 花园幽径句(Garden Path Sentences)
- 定义:句子在阅读过程中造成临时歧义,误导读者。
- 示例:
"After the musician played the piano was wheeled off the stage"- 初始误解:音乐家在钢琴上演奏。
- 正确理解:钢琴被推下舞台(音乐家演奏之后)。
- 解决方法:NLP需结合句法分析和语义分析,而非仅依赖词序列。
3. 停用词移除(Stop Word Removal)
- 定义:过滤掉常见但非必需的词,如
a, an, the, is, but。 - 需谨慎的原因:停用词有时承载重要含义。
"To be or not to be"—— 移除to或be会完全破坏语义。"The room is beautiful, but not in the color that I favor"——but转变了句子情感。"I'd love to go out with you, but not tonight"——but隐含委婉拒绝。
4. 词干提取(Stemming)与词形还原(Lemmatization)
| 技术 | 方法 | 示例 |
|---|---|---|
| Stemming | 移除前后缀,有时粗暴截断 | computational / computing → compute |
| Lemmatization | 基于语言学规则,返回词典原形 | boys → boy, children → child |
两者共同作用:标准化文本数据,提高语言建模的一致性。
三、BERT与Transformer的突破
BERT(双向编码器表示)
- 提出时间:Google 2018–2019年
- 核心创新:双向处理
- 传统模型:从左到右顺序阅读,容易误解。
- BERT:一次读取整个句子,同时考虑每个词的左右上下文。
Transformer框架
- 提出时间:Google 2017年
- 核心机制:自注意力机制(Self-Attention)
- 作用:确定词之间的上下文关系。
示例对比:
"Brazil traveler to USA need a visa"
- 早期NLP模型:可能误解为“美国旅行者去巴西需要签证”。
- BERT:正确理解为“从巴西去美国的旅行者需要签证”。
四、情感分析(Sentiment Analysis / Opinion Mining)
基本分类
- 正面 / 负面 / 中性
示例
"I don't like the computer lab"→ 明确负面"I think the computers at the lab are outdated"→ 隐含批评
主要挑战
| 挑战类型 | 说明 | 示例 |
|---|---|---|
| 讽刺(Sarcasm) | 字面与实际含义相反 | “教授太棒了!我一点没学,整学期闭眼还得A。” → 基础NLP会误判为正面 |
| 否定(Negation) | 一个词反转情感极性 | "No one thinks it is good" → good 正面,但整句负面 |
| 价移(Valence Shifting) | 某些词剧烈改变情感方向 | "This is a missed opportunity" → opportunity 正面,但 missed 表达遗憾 |
| 反事实语句(Counterfactual) | 隐含不满 | "It would be better if the Wi-Fi is faster" |
改进方法
- CNN(卷积神经网络):通过建模局部文本特征、识别句子内部矛盾,帮助检测讽刺。
- BERT:显著改进情感分析,能够识别否定词等改变含义的要素。
五、总结
- NLP核心流程:预处理 → 分类 → 概念链接
- 关键技术:分词、停用词处理、词干提取/词形还原、BERT/Transformer、CNN
- 持续挑战:
- 句法/语义歧义(花园幽径句等)
- 停用词依赖上下文的含义
- 讽刺、否定、价移、反事实语句
- 深度学习进展(尤其是BERT和CNN)显著提升了NLP理解人类语言的能力,但该领域仍在不断发展。
六、谷歌词频统计与趋势
课程主题:数据驱动的社会心理学与文化变迁研究工具
一、概述
- 核心工具:
- Google Ngram Viewer (GBNV)
- Google Trends
- 研究价值:通过分析大规模语言数据和实时搜索行为,理解人类思想与行为的历史与当代变迁。
- 应用领域:社会心理学、社会文化变迁、范式转移(Paradigm Shifts)研究。
二、Google Ngram Viewer(GBNV)
1. 基本概念
- N-gram:由“n”个连续单词组成的序列。
- 与传统分词的区别:
- 传统方法:孤立地切分单词。
- N-gram:将单词组成有意义的序列,保留上下文。
2. N-gram示例(以“tear down this wall”为例)
| n值 | 名称 | 生成的序列 |
|---|---|---|
| n=2 | Bigram | “tear down”, “down this”, “this wall” |
| n=3 | Trigram | “tear down this”, “down this wall” |
3. 数据规模
- 覆盖超过三个世纪的数百万本书籍。
- 初始:500万本书(多语种:英、法、西、德、中、俄、希伯来语等)。
- 2012年:新增300万本书。
- 2020年2月:数据集扩展至包含2019年之前出版的书籍。
4. 应用案例:科学范式转移
- 理论背景:Thomas Kuhn于1962年提出的“范式转移”概念。
- 案例:牛顿力学 → 相对论与量子力学。
分析操作步骤:
- 访问 Google Ngram Viewer。
- 输入关键词:
Newtonian,quantum,theory of relativity。 - 使用通配符(
*)捕获变体,如Newtonian *可匹配“Newtonian mechanics”或“Newtonian physics”。 - 设置时间范围:1920–2019年。
研究发现:
- 量子力学(红线)在词频上持续占优,超越爱因斯坦相对论。
- 峰值出现在2009年左右,之后缓慢下降,反映科研焦点的转移。
三、Google Trends(谷歌趋势)
1. 功能定位
- 提供实时搜索词频分析,反映当代公众兴趣。
- 揭示:公开表达 vs 私下想法之间的差异。
2. 关键研究者
- Seth Stevens-Davidowitz:
- 人们往往在公开场合遵循社会规范。
- 通过匿名搜索查询暴露真实的关注点与偏见。
3. 局限与注意事项
- 并非绝对可靠:某些模式可能误导,需结合上下文解释。
典型案例:搜索“Islam”与“essays”的相关性
- 表面现象:两者搜索频率呈正相关。
- 实际解释:学术日历驱动——学生在特定学期研究宗教主题完成作业。
- 结论:搜索趋势受外部因素(如学校日程)影响。
4. 学术支持
- Goist & Monroe (2020):学术需求塑造互联网搜索模式,某些主题在特定时间可预测地上升。
四、两类工具的对比与互补
| 维度 | Google Ngram Viewer | Google Trends |
|---|---|---|
| 时间维度 | 长期(数百年) | 短期/实时 |
| 数据来源 | 已出版书籍文献 | 用户搜索查询 |
| 擅长领域 | 历史语言变迁、范式转移 | 当代公众情绪、新兴文化现象 |
| 典型输出 | 词频随时间变化曲线 | 搜索热度随时间/地区分布 |
共同价值:
- 帮助研究者理解语言、意识形态、知识结构的演变。
- 提供从历史转型到当下现实的深入洞察。
五、总结
- GBNV与Google Trends是研究文化变迁与范式转移的强大数据驱动工具。
- N-gram方法通过保留上下文,弥补了传统分词的不足。
- 科学范式(如牛顿力学→量子力学)可通过词频分析可视化。
- Google Trends揭示真实心理,但必须考虑季节性、学术周期等外部因素。
- 两类工具互补使用,可获得更完整的语言与社会变迁图景。
七、潜在类别分析 Latent class analysis
课程主题:潜在类别分析(LCA)与文本聚类
一、LCA基本概念
- 定义:潜在类别分析(Latent Class Analysis)是一种用于从文本数据中识别子群体的统计技术。
- 应用场景:学生体验管理、在线学习环境偏好研究。
- 本质:LCA是一种专门针对文本数据的聚类分析形式。
二、案例研究背景
- 数据来源:美国西南部某大学的开放问卷回答。
- 研究问题:学生对“理想在线学习环境”的看法与偏好。
- 数据类型:开放性问题回答(文本)。
- 数据性质:专有数据,不公开(仅供演示)。
注:本案例为演示,不要求实际操作,但可用自己的数据运行相同分析。
三、使用JMP进行分析的步骤
| 步骤 | 操作 |
|---|---|
| 1 | 菜单选择:Analyze → Text Explorer |
| 2 | 设置字段:Respondent ID → ID列;开放回答 → Text列 |
| 3 | 选择 Stem all terms(词干提取) |
| 4 | 点击 OK |
| 5 | 可视化词频:倒三角 → Display Options → Show Word Cloud |
| 6 | 调整词云布局:Layout → Centered |
| 7 | 选择 Latent Class Analysis(默认5个类别,可接受) |
| 8 | 查看某类细节:选择类别 → Show Text |
四、LCA的多维缩放(MDS)可视化
- 补充方法:多维缩放(Multi-Dimensional Scaling, MDS)
- 作用:与聚类分析配合,可视化词与词之间的关系。
- 输出示例:生成5个不同的词聚类,代表数据集中的主要概念主题。
五、聚类结果解读
1. 聚类命名
- 查看每个聚类的文本内容 → 根据概念命名聚类 → 归类为更广泛的概念。
2. 识别出的学生偏好与需求示例
- 讲课录像(lecture recordings)
- 作业链接(links to assignments)
3. 两个主要概念示例
| 概念 | 核心内容 |
|---|---|
| 概念一 | 用户友好性(User Friendliness)与用户界面(UI)——强调直观、无缝的数字学习体验 |
| 概念二 | 课程资源可访问性(Accessibility to Course-related Resources)——学生需要便捷获取学习材料 |
六、总结
- LCA的价值:从开放问卷等文本数据中自动识别子群体,发现共同主题。
- 与MDS配合:将聚类结果以图形方式呈现,便于理解和解释。
- 实际应用:帮助研究者理解学生期望与优先事项,优化在线学习环境设计。
- 工具:本演示使用 JMP 软件的
Text Explorer模块。
八、在JMP Pro 中进行情感分析 Sentiment analysis in JMP
课程主题:情感分析在学生评教中的应用
一、研究背景:学生评教与成绩的关系
1. 早期研究(Centra, 2003)
- 核心发现:学生评教与成绩宽容度或课业负担减轻之间没有实质性关联。
- 数据规模:约55,000门课程(1995–1999年)。
- 统计方法:相关分析 + 逐步回归。
- 预期成绩与整体评分的相关系数仅为0.11。
- 回归分析显示:预期成绩对评教的影响极小。
- 方法局限:
- 逐步回归(Stepwise Regression)在当时常用,但现已不被推荐。
- Gary Smith批评:逐步回归常选中无关变量、遗漏关键变量,可靠性低。
- 现代替代方法:XGBoost、Bootstrap Forest 等机器学习方法。
注:因无法获取原始数据,视频作者对该研究结论暂不判断。
二、替代研究方法:文本挖掘 + 情感分析
1. 数据来源
- 网站:RateMyProfessors.com
- 数据集名称:Rate My Professor Sample Data
- 样本量:20,000条(跨大学、跨院系)
- 数据类型:
- 数值评分
- 学生评论文本
- 用途:学生选课参考,不用于人事决策。
- 研究价值:帮助教育研究者理解学生感知、教学质量、分数通胀之间的关系。
本研究的创新点:使用实际成绩而非预期成绩。
三、使用JMP进行情感分析的步骤
| 步骤 | 操作 |
|---|---|
| 1 | Analyze → Text Explorer |
| 2 | 将评论文本放入 Text Columns |
| 3 | 勾选 Stem all terms(词干提取,合并相似词) |
| 4 | 点击 OK |
| 5 | 输出窗口中:倒三角 → Sentiment Analysis |
| 6 | 情感分析倒三角 → Save Document Scores |
四、情感分析输出解读
- 情感得分范围:-100 到 100
0= 完全中性> 0= 正面情感< 0= 负面情感
- 算法能力:判断文本的情感极性(正面/负面/中性)。
- 开放问卷的优势:
- 李克特量表:仅产生数值评分。
- 开放回答:提供详细洞察,解释学生为什么给出高分或低分。
五、分析与成绩的关系:均值分析(ANOM)
1. 均值分析方法
- 定义:一种图形化统计方法,同时比较多个组的均值与总均值。
- 优势:比传统的事后多重比较更简洁易用。
- 历史:
- 1967年:为统计质量控制发明。
- 1980年代:制造业流行。
- 1990年代:扩展到服务业和医疗行业。
- 被社会科学家忽视。
2. JMP操作步骤
| 步骤 | 操作 |
|---|---|
| 1 | Analyze → Fit Y by X |
| 2 | 成绩 → X,总体情感得分 → Y |
| 3 | 点击 OK |
| 4 | 倒三角 → Analysis of Means (ANOM) |
3. 关键发现(样本量20,000,其中16,708未报告成绩)
- 平均情感得分(排除缺失后):32.84
- 高于平均的组:仅 A- 或 A+ 的学生
- 处于平均水平的组:B+
- 低于平均的组:其余所有成绩等级
| 成绩等级 | 情感得分相对水平 | 备注 |
|---|---|---|
| 红点在均值线上方 | 显著偏离平均 | 如 D-、D+、F → 负面情感极强 |
| 红点未标记 | 不显著偏离 | — |
含义:若教授希望学生情感得分保持在平均以上,必须避免给出任何低于A的成绩。
六、结论:学生评教与分数通胀
本研究的结论
- 与2003年Centra研究直接矛盾。
- 支持以下观点:学生评教会加剧分数通胀、降低学术标准。
相关研究支持
| 年份 | 研究者 | 核心观点 |
|---|---|---|
| 2016 | Nate, Cornell, Hausman | 获得较低评教的教师,在后续课程中的学习效果反而更好。高挑战性课程 → 低评教,但长期学习效果更佳。学生往往不欣赏严格的教师。 |
| 2018 | John Lawrence | 学生评教分数是教学效果的不良指标。受多种与教学质量无关因素影响:成绩期望、课程享受度、教师性别/种族/年龄/外貌、甚至调查当天的天气。 |
| 2020 | Wolfgang Strobe | 学生评教不衡量教学有效性。将其用于教师聘用、晋升、加薪决策,会激励不良教学实践并加剧分数通胀。 |
最终建议
- 学生评教应谨慎解读。
七、总结
| 维度 | 内容 |
|---|---|
| 研究问题 | 学生情感与所获成绩的关系 |
| 数据源 | RateMyProfessors.com(20,000条) |
| 分析方法 | 情感分析 + 均值分析(ANOM) |
| 核心发现 | 只有A-及以上学生的情感得分高于平均;低于A的成绩都会导致情感低于平均 |
| 实践含义 | 评教会激励教授给高分,导致分数通胀 |
| 建议 | 评教结果应谨慎使用,不宜作为教学效果的唯一或主要依据 |
九、用于文本挖掘的人工智能聊天机器人 AI chatbots for text mining
课程主题:使用AI聊天机器人进行文本挖掘
一、传统文本挖掘 vs. LLM驱动的文本挖掘
| 维度 | 传统文本挖掘 | LLM驱动的文本挖掘 |
|---|---|---|
| 软件成本 | 昂贵 | 显著降低/可负担 |
| 技术门槛 | 需专门培训与专业知识 | 仅需提示工程 |
| 交互方式 | 复杂编码 | 自然语言命令 |
| 可及性 | 限于少数专家 | 大众化,人人可用 |
核心转变:LLM使文本挖掘不再依赖昂贵软件和深厚编程背景。
二、案例研究:学生关于LLM伦理担忧的调查
1. 研究背景
- 目的:收集学生对LLM的使用情况与看法。
- 数据类型:
- 强制选项回答
- 开放反馈(定性数据)
2. 具体分析问题
“请详细说明你对使用LLM可能导致的不道德结果的担忧。”
3. 分析工具
- ChatGPT(作为LLM代表)
三、使用LLM进行文本挖掘的操作步骤
| 步骤 | 操作 |
|---|---|
| 1 | 将数据文件上传至ChatGPT |
| 2 | 提供具体且详细的提示(Prompt) |
| 3 | 提示中应包含: - 目标列 - 要执行的任务 - 期望的输出格式 |
| 4 | 示例提示要求: - 识别共同主题 - 以表格形式输出结果 - 每行包含:主题、简要描述、学生原话引用 |
支持的数据格式
- CSV
- Excel(xlsx)
LLM与广泛使用的数据存储格式兼容。
四、输出示例(提示设计)
| 列名 | 内容 |
|---|---|
| 主题 | 从学生回答中提取的主题名称 |
| 简要描述 | 对该主题的解释 |
| 学生原话引用 | 直接引用支撑该主题的典型回答 |
五、重要注意事项
1. LLM并非绝对可靠
- 可能产生错误和误解。
- 需要人工监督。
2. 推荐方法:混合方法
- 对LLM生成的部分输出进行抽样。
- 人工编码员验证准确性。
- 目的:
- 保证可靠性
- 维护定性研究的完整性
3. 混合方法的优势
| 优势 | 说明 |
|---|---|
| 速度与效率 | 来自LLM |
| 减少错误与偏见 | 来自人工审查 |
| 可扩展性 | 适用于研究和商业场景 |
六、总结
- LLM大幅降低了文本挖掘的门槛,实现了大众化。
- 核心技能从编程转向提示工程。
- LLM能够处理结构化数据(CSV、Excel)和定性文本。
- **混合方法(LLM + 人工验证)**是最佳实践,兼顾效率与准确性。
- 应用场景:学术研究、商业调研、定性数据分析等。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)