数据科学与机器学习 week8 文本挖掘

weixin_54623031

568人浏览 · 2026-04-28 23:52:26

weixin_54623031 · 2026-04-28 23:52:26 发布

一、什么是文本挖掘 What is text mining

课程主题：文本挖掘（Text Mining）

一、基本概念

文本挖掘（也称文本分析）是人工智能（AI）在自然语言处理（NLP）领域的具体应用。
目的：从大量非结构化文本（如邮件、博客、社交媒体、历史档案）中提取有价值信息。
与数据挖掘的区别：
- 数据挖掘：处理结构化数值数据。
- 文本挖掘：处理非结构化文本数据。

二、AI在文本挖掘中的作用

使用NLP、机器学习算法、模式识别技术。
实现提取、探索、模式识别等功能。
随着数据量指数级增长，AI驱动的文本挖掘成为处理海量信息的重要工具。

三、应用案例

1. 历史与意识形态研究

分析历史文献、演讲、私人信件。
例如：通过文本挖掘分析美国是否是“基督教国家”的争论。
优势：基于可测量的语言模式，超越主观解释。

2. 娱乐与媒体（如《美国偶像》）

2010年5月，通过分析社交媒体评论、推文等，预测冠军为Lee DeWyze。
展示了基于受众情绪的实时预测能力。

3. 国家安全与反恐

NSA在11年内收集15–20万亿条数据，利用AI分析文本通信。
通过关键词、模式、异常识别潜在威胁。

4. 执法与公共安全

检测社交媒体上的威胁信息。
可立即分析并采取行动，预防犯罪。
但也引发隐私与监控的伦理争议。

四、总结与展望

文本挖掘已广泛应用于历史、娱乐、安全、执法等领域。
随着非结构化文本数据持续增长，AI驱动的文本挖掘将更加关键。
伦理问题：
- 隐私保护
- 知识产权
- 安全与个人自由的平衡

补充一、文本挖掘与数据挖掘的关系 Forerunners of text mining

课程主题：文本挖掘是数据挖掘的子集吗？

一、主流观点：文本挖掘是数据挖掘的子集

学术界与工业界普遍认为文本挖掘属于数据挖掘的子集。
在ICDM等数据挖掘顶级会议中，文本挖掘论文常被归入数据挖掘轨道。
部分网站（如infomanel）也明确将文本 Mining 列为数据 Mining 的子集。
这种观点暗示了一种层次关系：数据挖掘是更大的领域。

二、定义上的本质区别

维度	数据挖掘	文本挖掘
输入数据	结构化数据（关系数据库、数据仓库）	非结构化或半结构化文本（邮件、社交媒体、网页等）
数据形式	行与列代表明确变量	缺乏内在结构，包含自然语言
目标	发现模式、趋势、关系	提取含义、主题、情感

三、支持“子集说”的理由

文本挖掘先通过TF-IDF、词袋模型、n-gram、词嵌入（Word2Vec、Glove、BERT等） 将非结构化文本转化为结构化向量。
然后可应用标准数据挖掘算法：聚类、分类、预测。
从这个操作角度看，文本挖掘是进入数据挖掘框架的专门入口。

四、反对“子集说”的理由

1. 结构化输出不完全等同于数值变量

开放问卷编码为类别变量，只适合频率分析或简单统计。
不适合主成分分析等高级建模，除非进一步（往往任意的）编码。

2. 转换过程会丢失语境与细微差别

文本含有歧义、讽刺、隐喻、文化背景，转化为数字后容易丢失。
即使BERT、GPT等先进模型能更好保留语义，向量化后的输出仍不易被传统数据挖掘算法直接使用。

3. 方法和工具的差异

文本挖掘核心流程源于计算语言学与NLP：
- 分词
- 词性标注
- 句法解析
- 命名实体识别
- 情感分析
- 语义建模
这些在传统数据挖掘工具中没有直接对应项。

五、更准确的关系模型：维恩图（交集关系）

不是小圆（文本挖掘）完全在大圆（数据挖掘）内。
而是两个相交的圆：
- 交集：共享的技术（分类、聚类）与共同目标（发现模式、生成洞察）。
- 各自保留独立的区域（独特的方法论与工具）。

六、比喻：从“主从关系”到“两位大师”

层级关系暗示：数据挖掘是“全知主人”，文本挖掘是“从属仆人”。
更准确的比喻：两位各自精通领域的大师，路径平行，携手合作时能互补优势。

七、结论：开放性问题

从目标与共享技术角度看，称文本 mining 为数据 mining 的子集并非错误。
但从严格技术与概念角度看，文本 mining 包含独特挑战（预处理、表示、解释），扩展了数据挖掘的边界，而非仅仅居于其内。
这是一个建设性辩论，随着NLP与机器学习不断发展，两者关系将持续变化。
实践者应理解其区别与协同，以便有效利用结构化与非结构化数据。

二、文本挖掘的先驱 Forerunners of text mining

课程主题：文本挖掘的先驱——从传统定性分析到AI驱动

一、核心观点

文本挖掘并非全新概念，而是传统定性研究方法的演进与延伸。
传统方法（如内容分析、扎根理论）长期以来依靠人工分析文本、视觉或音频内容，以识别模式、主题和潜在含义。

二、传统定性研究方法

1. 内容分析（Content Analysis）

目标：对数据进行分类与解释。
应用示例：
- 宗教研究：分类18世纪瑞典圣诗，检测对教会正统的潜在挑战。
- 政治学：Lasswell团队用于宣传研究，理解大众传播如何影响舆论。
- 心理学：Gordon Allport用于人格测试数据分析。

2. 扎根理论（Grounded Theory）

目标：通过迭代编码与比较生成理论。
关键要求：研究者必须搁置所有先入之见。
挑战：这一理想状态说起来容易，做起来难。

三、人工定性分析的局限性

案例研究：作者与Marcus Mendoza关于监狱工作人员对监禁态度的研究

分析开放回答，判断狱警倾向：
- 报应（Retribution）
- 威慑（Deterrence）
- 改造（Rehabilitation）
问题：人工分析极其繁琐耗时，需要处理大量文本数据。
解决方案：AI可自动化这些任务，显著减轻人工负担。

四、关键先驱人物：Don R. Swanson

1. 背景

学历：加州大学伯克利分校理论物理学博士
职业：物理学家 → 芝加哥大学图书馆学研究生院教授兼院长
非生物医学专业出身

2. 核心贡献：概念链接（Concept Linking）

方法：通过仔细审视现有文献，识别看似不相关概念之间的关系。
目的：生成新假设。

3. 经典案例（1986年）

步骤	内容
文献分析	考察医学文献
提出假设	鱼油摄入 → 降低血液黏度 → 与雷诺氏病（Reynold’s disease）存在关联
验证	DiGiacomo, Kremer & Shah（1989）通过实验研究证实该假设
后续成功	同一方法应用于压力、偏头痛与镁缺乏的关联研究，亦获实证支持

4. 意义

Swanson证明了：通过系统文本分析可以提取隐性知识（Latent Knowledge）。
他的方法为现代文本挖掘技术奠定了基础。
展示了跨学科方法如何带来突破性发现。

五、从传统到现代的演进

维度	传统定性分析	现代文本挖掘
执行方式	人工手动	AI驱动（NLP、LLM）
效率	繁琐、耗时	快速、自动化
方法基础	内容分析、扎根理论	概念链接、NLP、机器学习
核心价值	分类、解释、理论构建	模式识别、假设生成、大规模分析

六、结论

文本挖掘深深扎根于内容分析与扎根理论等传统定性方法。
从人工到AI的转变简化了研究流程，提高了效率。
Don R. Swanson的概念链接工作，证明了通过文本分析揭示隐藏知识的巨大潜力。
文本挖掘不是新趋势，而是成熟方法论的高级扩展。

七、关键术语速记

术语	含义
内容分析	分类与解释数据
扎根理论	通过编码与比较生成理论
概念链接	发现不同概念之间的关系
隐性知识	未明确表达但可通过分析提取的知识
跨学科	结合不同领域的方法与视角

三、自然语言处理与大预言模型 NLP and LLM

课程主题：自然语言处理（NLP）——文本挖掘的基础

一、NLP的基本定位

定义：NLP是人工智能（AI）与计算语言学的关键子领域，是文本挖掘的基石。
作用：
- 增强扎根理论、概念链接等方法论，实现数据分析自动化。
- 软件不仅要处理单词，还要理解上下文，才能生成准确解释。
- 没有NLP，文本挖掘将无法捕捉人类语言的复
- 杂性与细微差别。

二、大语言模型（LLMs）的进步

LLMs是NLP的重大进展，依赖海量数据集处理和生成类人文本。
代表模型：OpenAI的GPT-4、GPT-4.5（代号Orion）。
参数（Parameters）的含义：
- 定义模型学习与生成文本能力的数值。
- 训练过程中不断调整的学习权重。
- 与编程中的变量不同：变量是存储位置；LLM参数是优化文本处理的权重。
- 参数越多 → 模型对语言的理解越复杂、越细腻。

参数规模示例（未公开确认，业界推测）：

模型	推测参数数量
GPT-4	1.76 万亿
GPT-4.5 (Orion)	12 万亿

三、LLMs的训练方式

数据来源：书籍、文章、网页等大量文本。
学习方式：自监督学习，无需人工标注。
学习内容：
- 语言模式
- 关系
- 句法结构
结果：能够预测、生成、响应人类输入，模拟自然交流。

四、ChatBot（聊天机器人）——LLM的前端应用

作用：提供用户友好的对话界面。
典型例子：
- OpenAI的ChatGPT
- Microsoft Copilot
- Meta AI的Llama
可实现的功能：
- 解释用户查询
- 生成回答
- 总结文章
- 回答技术问题
- 交互式讲故事

关系总结：LLM在后台运行，ChatBot在前台提供交互界面，使NLP技术可被广泛使用。

五、结论

NLP是AI的核心组成部分，支撑着文本挖掘、大语言模型、聊天机器人三大应用方向。
面临挑战：语言歧义性仍然存在，需要持续研究与优化。
未来展望：NLP将进一步提升AI处理、理解、生成人类语言的能力，成为现代计算中不可或缺的工具。

四、自然语言处理的挑战 challenges of NLP

课程主题：NLP的主要挑战——语言中的歧义与复杂性

一、核心问题：人类语言的复杂性与歧义性

NLP面临的最大困难：词义依赖上下文而变化。
模型必须能够辨别上下文差异，才能准确处理语言。

二、词义歧义（Lexical Ambiguity）示例

词语	不同含义示例
book	• 预订（I book a ticket） • 书（read a book）
senior	高年级学生、老年人、高级经理
sex	生物性别、教育政策中的“性”教育

三、句法与语义的交互作用

句子理解同时受语义（词义）和句法（词语排列方式）影响。
经典例子：
- “The spy saw the man with the binoculars”
  - 歧义：间谍用望远镜看？还是那个男人拿着望远镜？
- “The bird saw the man with the binoculars”
  - 歧义减少：鸟通常不会使用望远镜。

说明：人类认知会同时整合句法与语义，NLP系统需要模拟这种能力。

四、历史文化背景缺失导致的歧义

例1：新闻标题

“Soviet Virgin Lands Short of Goal Again”

表面理解（无背景）：可能以为是苏联的某次航班着陆失败。
实际含义：“处女地运动”是1950年代苏联的一项农业计划，该标题指农业产量未达标。
问题：AI缺乏历史文化背景知识，除非专门训练过。

补充背景：该农业计划因基础设施差、生活条件恶劣、粮食储存不足而失败，导致大量粮食浪费。

例2：新闻标题（福克兰战争期间）

“British Left Waffles on Falkland Island”

表面理解：英国人把华夫饼留在了岛上。
实际含义：描述英国政界对福克兰危机的犹豫不决（waffles 此处意为“犹豫/含糊其辞”）。
问题：AI难以理解习语表达，除非训练过大量文化与历史数据集。

五、结构歧义（Structural Ambiguity）示例

以下标题均可产生多种合理解释：

标题示例	歧义说明
The student failed the professor	谁失败？谁导致失败？
Eye drops off shelf	眼睛从架子上掉下来？/ 眼药水下架？
Teacher strikes idle kids	老师打懒惰的孩子？/ 老师罢工导致孩子闲着？
Farmer Bill dies in house	名叫Bill的农夫去世？/ 关于农业的法案（Bill）在众议院未通过？
Iraqi head seeks arms	伊拉克领导人寻求武器？/ 伊拉克的头部寻找手臂？

有些歧义只能通过真实世界的额外知识来消解。

六、总结与展望

核心挑战：
- 多义词（词义歧义）
- 上下文依赖
- 句法结构歧义
- 习语表达
- 历史文化背景缺失
当前局限：
- AI虽然在语言处理上取得了显著进步，但仍难以像人类那样轻松消解歧义。
- 难以理解超出表层句法和定义的深层含义。
未来方向：
- 持续改进机器学习方法
- 增强上下文感知能力
- 更好整合外部知识（历史、文化、常识）

最终结论：像人类一样完全理解并处理语言，仍然是AI面临的最大挑战之一。
…

五、自然语言处理的步骤 Steps of NLP

课程主题：NLP的主要步骤与挑战

一、NLP的核心处理流程

NLP从原始文本中提取有意义的词和短语，通常包含以下三大步骤：

预处理（Pre-processing）
- 分词
- 停用词移除
- 词干提取
- 词形还原
分类（Categorization）
- 将词和短语归类到概念或主题中
概念链接（Concept Linking）
- 识别概念之间的关系

理想情况下，NLP系统应自动完成这些步骤以提高效率与准确性。某些软件（如AutoMap）需要大量人工预处理，效率较低。

二、预处理的关键技术

1. 分词（Tokenization）

定义：将文本切分为有意义的单元，同时保留上下文。
关键点：标点符号的处理需谨慎。
示例：IP地址 129.2.13.105 中的点不能删除，否则变成 129213105，失去意义。

2. 花园幽径句（Garden Path Sentences）

定义：句子在阅读过程中造成临时歧义，误导读者。
示例：
- "After the musician played the piano was wheeled off the stage"
- 初始误解：音乐家在钢琴上演奏。
- 正确理解：钢琴被推下舞台（音乐家演奏之后）。
解决方法：NLP需结合句法分析和语义分析，而非仅依赖词序列。

3. 停用词移除（Stop Word Removal）

定义：过滤掉常见但非必需的词，如 a, an, the, is, but。
需谨慎的原因：停用词有时承载重要含义。
- "To be or not to be" —— 移除 to 或 be 会完全破坏语义。
- "The room is beautiful, but not in the color that I favor" —— but 转变了句子情感。
- "I'd love to go out with you, but not tonight" —— but 隐含委婉拒绝。

4. 词干提取（Stemming）与词形还原（Lemmatization）

技术	方法	示例
Stemming	移除前后缀，有时粗暴截断	computational / computing → `compute`
Lemmatization	基于语言学规则，返回词典原形	boys → `boy`, children → `child`

两者共同作用：标准化文本数据，提高语言建模的一致性。

三、BERT与Transformer的突破

BERT（双向编码器表示）

提出时间：Google 2018–2019年
核心创新：双向处理
- 传统模型：从左到右顺序阅读，容易误解。
- BERT：一次读取整个句子，同时考虑每个词的左右上下文。

Transformer框架

提出时间：Google 2017年
核心机制：自注意力机制（Self-Attention）
作用：确定词之间的上下文关系。

示例对比：

"Brazil traveler to USA need a visa"

早期NLP模型：可能误解为“美国旅行者去巴西需要签证”。
BERT：正确理解为“从巴西去美国的旅行者需要签证”。

四、情感分析（Sentiment Analysis / Opinion Mining）

基本分类

正面 / 负面 / 中性

示例

"I don't like the computer lab" → 明确负面
"I think the computers at the lab are outdated" → 隐含批评

主要挑战

挑战类型	说明	示例
讽刺（Sarcasm）	字面与实际含义相反	“教授太棒了！我一点没学，整学期闭眼还得A。” → 基础NLP会误判为正面
否定（Negation）	一个词反转情感极性	`"No one thinks it is good"` → `good` 正面，但整句负面
价移（Valence Shifting）	某些词剧烈改变情感方向	`"This is a missed opportunity"` → `opportunity` 正面，但 `missed` 表达遗憾
反事实语句（Counterfactual）	隐含不满	`"It would be better if the Wi-Fi is faster"`

改进方法

CNN（卷积神经网络）：通过建模局部文本特征、识别句子内部矛盾，帮助检测讽刺。
BERT：显著改进情感分析，能够识别否定词等改变含义的要素。

五、总结

NLP核心流程：预处理 → 分类 → 概念链接
关键技术：分词、停用词处理、词干提取/词形还原、BERT/Transformer、CNN
持续挑战：
- 句法/语义歧义（花园幽径句等）
- 停用词依赖上下文的含义
- 讽刺、否定、价移、反事实语句
深度学习进展（尤其是BERT和CNN）显著提升了NLP理解人类语言的能力，但该领域仍在不断发展。

六、谷歌词频统计与趋势

课程主题：数据驱动的社会心理学与文化变迁研究工具

一、概述

核心工具：
- Google Ngram Viewer (GBNV)
- Google Trends
研究价值：通过分析大规模语言数据和实时搜索行为，理解人类思想与行为的历史与当代变迁。
应用领域：社会心理学、社会文化变迁、范式转移（Paradigm Shifts）研究。

二、Google Ngram Viewer（GBNV）

1. 基本概念

N-gram：由“n”个连续单词组成的序列。
与传统分词的区别：
- 传统方法：孤立地切分单词。
- N-gram：将单词组成有意义的序列，保留上下文。

2. N-gram示例（以“tear down this wall”为例）

n值	名称	生成的序列
n=2	Bigram	“tear down”, “down this”, “this wall”
n=3	Trigram	“tear down this”, “down this wall”

3. 数据规模

覆盖超过三个世纪的数百万本书籍。
初始：500万本书（多语种：英、法、西、德、中、俄、希伯来语等）。
2012年：新增300万本书。
2020年2月：数据集扩展至包含2019年之前出版的书籍。

4. 应用案例：科学范式转移

理论背景：Thomas Kuhn于1962年提出的“范式转移”概念。
案例：牛顿力学 → 相对论与量子力学。

分析操作步骤：

访问 Google Ngram Viewer。
输入关键词：Newtonian, quantum, theory of relativity。
使用通配符（*）捕获变体，如 Newtonian * 可匹配“Newtonian mechanics”或“Newtonian physics”。
设置时间范围：1920–2019年。

研究发现：

量子力学（红线）在词频上持续占优，超越爱因斯坦相对论。
峰值出现在2009年左右，之后缓慢下降，反映科研焦点的转移。

三、Google Trends（谷歌趋势）

1. 功能定位

提供实时搜索词频分析，反映当代公众兴趣。
揭示：公开表达 vs 私下想法之间的差异。

2. 关键研究者

Seth Stevens-Davidowitz：
- 人们往往在公开场合遵循社会规范。
- 通过匿名搜索查询暴露真实的关注点与偏见。

3. 局限与注意事项

并非绝对可靠：某些模式可能误导，需结合上下文解释。

典型案例：搜索“Islam”与“essays”的相关性

表面现象：两者搜索频率呈正相关。
实际解释：学术日历驱动——学生在特定学期研究宗教主题完成作业。
结论：搜索趋势受外部因素（如学校日程）影响。

4. 学术支持

Goist & Monroe (2020)：学术需求塑造互联网搜索模式，某些主题在特定时间可预测地上升。

四、两类工具的对比与互补

维度	Google Ngram Viewer	Google Trends
时间维度	长期（数百年）	短期/实时
数据来源	已出版书籍文献	用户搜索查询
擅长领域	历史语言变迁、范式转移	当代公众情绪、新兴文化现象
典型输出	词频随时间变化曲线	搜索热度随时间/地区分布

共同价值：

帮助研究者理解语言、意识形态、知识结构的演变。
提供从历史转型到当下现实的深入洞察。

五、总结

GBNV与Google Trends是研究文化变迁与范式转移的强大数据驱动工具。
N-gram方法通过保留上下文，弥补了传统分词的不足。
科学范式（如牛顿力学→量子力学）可通过词频分析可视化。
Google Trends揭示真实心理，但必须考虑季节性、学术周期等外部因素。
两类工具互补使用，可获得更完整的语言与社会变迁图景。

七、潜在类别分析 Latent class analysis

课程主题：潜在类别分析（LCA）与文本聚类

一、LCA基本概念

定义：潜在类别分析（Latent Class Analysis）是一种用于从文本数据中识别子群体的统计技术。
应用场景：学生体验管理、在线学习环境偏好研究。
本质：LCA是一种专门针对文本数据的聚类分析形式。

二、案例研究背景

数据来源：美国西南部某大学的开放问卷回答。
研究问题：学生对“理想在线学习环境”的看法与偏好。
数据类型：开放性问题回答（文本）。
数据性质：专有数据，不公开（仅供演示）。

注：本案例为演示，不要求实际操作，但可用自己的数据运行相同分析。

三、使用JMP进行分析的步骤

步骤	操作
1	菜单选择：`Analyze` → `Text Explorer`
2	设置字段：`Respondent ID` → ID列；开放回答 → Text列
3	选择 `Stem all terms`（词干提取）
4	点击 `OK`
5	可视化词频：倒三角 → `Display Options` → `Show Word Cloud`
6	调整词云布局：`Layout` → `Centered`
7	选择 `Latent Class Analysis`（默认5个类别，可接受）
8	查看某类细节：选择类别 → `Show Text`

四、LCA的多维缩放（MDS）可视化

补充方法：多维缩放（Multi-Dimensional Scaling, MDS）
作用：与聚类分析配合，可视化词与词之间的关系。
输出示例：生成5个不同的词聚类，代表数据集中的主要概念主题。

五、聚类结果解读

1. 聚类命名

查看每个聚类的文本内容 → 根据概念命名聚类 → 归类为更广泛的概念。

2. 识别出的学生偏好与需求示例

讲课录像（lecture recordings）
作业链接（links to assignments）

3. 两个主要概念示例

概念	核心内容
概念一	用户友好性（User Friendliness）与用户界面（UI）——强调直观、无缝的数字学习体验
概念二	课程资源可访问性（Accessibility to Course-related Resources）——学生需要便捷获取学习材料

六、总结

LCA的价值：从开放问卷等文本数据中自动识别子群体，发现共同主题。
与MDS配合：将聚类结果以图形方式呈现，便于理解和解释。
实际应用：帮助研究者理解学生期望与优先事项，优化在线学习环境设计。
工具：本演示使用 JMP 软件的 Text Explorer 模块。

八、在JMP Pro 中进行情感分析 Sentiment analysis in JMP

课程主题：情感分析在学生评教中的应用

一、研究背景：学生评教与成绩的关系

1. 早期研究（Centra, 2003）

核心发现：学生评教与成绩宽容度或课业负担减轻之间没有实质性关联。
数据规模：约55,000门课程（1995–1999年）。
统计方法：相关分析 + 逐步回归。
- 预期成绩与整体评分的相关系数仅为0.11。
- 回归分析显示：预期成绩对评教的影响极小。
方法局限：
- 逐步回归（Stepwise Regression）在当时常用，但现已不被推荐。
- Gary Smith批评：逐步回归常选中无关变量、遗漏关键变量，可靠性低。
- 现代替代方法：XGBoost、Bootstrap Forest 等机器学习方法。

注：因无法获取原始数据，视频作者对该研究结论暂不判断。

二、替代研究方法：文本挖掘 + 情感分析

1. 数据来源

网站：RateMyProfessors.com
数据集名称：Rate My Professor Sample Data
样本量：20,000条（跨大学、跨院系）
数据类型：
- 数值评分
- 学生评论文本
用途：学生选课参考，不用于人事决策。
研究价值：帮助教育研究者理解学生感知、教学质量、分数通胀之间的关系。

本研究的创新点：使用实际成绩而非预期成绩。

三、使用JMP进行情感分析的步骤

步骤	操作
1	`Analyze` → `Text Explorer`
2	将评论文本放入 `Text Columns`
3	勾选 `Stem all terms`（词干提取，合并相似词）
4	点击 `OK`
5	输出窗口中：倒三角 → `Sentiment Analysis`
6	情感分析倒三角 → `Save Document Scores`

四、情感分析输出解读

情感得分范围：-100 到 100
- 0 = 完全中性
- > 0 = 正面情感
- < 0 = 负面情感
算法能力：判断文本的情感极性（正面/负面/中性）。
开放问卷的优势：
- 李克特量表：仅产生数值评分。
- 开放回答：提供详细洞察，解释学生为什么给出高分或低分。

五、分析与成绩的关系：均值分析（ANOM）

1. 均值分析方法

定义：一种图形化统计方法，同时比较多个组的均值与总均值。
优势：比传统的事后多重比较更简洁易用。
历史：
- 1967年：为统计质量控制发明。
- 1980年代：制造业流行。
- 1990年代：扩展到服务业和医疗行业。
- 被社会科学家忽视。

2. JMP操作步骤

步骤	操作
1	`Analyze` → `Fit Y by X`
2	成绩 → X，总体情感得分 → Y
3	点击 `OK`
4	倒三角 → `Analysis of Means (ANOM)`

3. 关键发现（样本量20,000，其中16,708未报告成绩）

平均情感得分（排除缺失后）：32.84
高于平均的组：仅 A- 或 A+ 的学生
处于平均水平的组：B+
低于平均的组：其余所有成绩等级

成绩等级	情感得分相对水平	备注
红点在均值线上方	显著偏离平均	如 D-、D+、F → 负面情感极强
红点未标记	不显著偏离	—

含义：若教授希望学生情感得分保持在平均以上，必须避免给出任何低于A的成绩。

六、结论：学生评教与分数通胀

本研究的结论

与2003年Centra研究直接矛盾。
支持以下观点：学生评教会加剧分数通胀、降低学术标准。

年份	研究者	核心观点
2016	Nate, Cornell, Hausman	获得较低评教的教师，在后续课程中的学习效果反而更好。高挑战性课程 → 低评教，但长期学习效果更佳。学生往往不欣赏严格的教师。
2018	John Lawrence	学生评教分数是教学效果的不良指标。受多种与教学质量无关因素影响：成绩期望、课程享受度、教师性别/种族/年龄/外貌、甚至调查当天的天气。
2020	Wolfgang Strobe	学生评教不衡量教学有效性。将其用于教师聘用、晋升、加薪决策，会激励不良教学实践并加剧分数通胀。

最终建议

学生评教应谨慎解读。

七、总结

维度	内容
研究问题	学生情感与所获成绩的关系
数据源	RateMyProfessors.com（20,000条）
分析方法	情感分析 + 均值分析（ANOM）
核心发现	只有A-及以上学生的情感得分高于平均；低于A的成绩都会导致情感低于平均
实践含义	评教会激励教授给高分，导致分数通胀
建议	评教结果应谨慎使用，不宜作为教学效果的唯一或主要依据

九、用于文本挖掘的人工智能聊天机器人 AI chatbots for text mining

课程主题：使用AI聊天机器人进行文本挖掘

一、传统文本挖掘 vs. LLM驱动的文本挖掘

维度	传统文本挖掘	LLM驱动的文本挖掘
软件成本	昂贵	显著降低/可负担
技术门槛	需专门培训与专业知识	仅需提示工程
交互方式	复杂编码	自然语言命令
可及性	限于少数专家	大众化，人人可用

核心转变：LLM使文本挖掘不再依赖昂贵软件和深厚编程背景。

二、案例研究：学生关于LLM伦理担忧的调查

1. 研究背景

目的：收集学生对LLM的使用情况与看法。
数据类型：
- 强制选项回答
- 开放反馈（定性数据）

2. 具体分析问题

“请详细说明你对使用LLM可能导致的不道德结果的担忧。”

3. 分析工具

ChatGPT（作为LLM代表）

三、使用LLM进行文本挖掘的操作步骤

步骤	操作
1	将数据文件上传至ChatGPT
2	提供具体且详细的提示（Prompt）
3	提示中应包含： - 目标列 - 要执行的任务 - 期望的输出格式
4	示例提示要求： - 识别共同主题 - 以表格形式输出结果 - 每行包含：主题、简要描述、学生原话引用

支持的数据格式

CSV
Excel（xlsx）

LLM与广泛使用的数据存储格式兼容。

四、输出示例（提示设计）

列名	内容
主题	从学生回答中提取的主题名称
简要描述	对该主题的解释
学生原话引用	直接引用支撑该主题的典型回答

五、重要注意事项

1. LLM并非绝对可靠

可能产生错误和误解。
需要人工监督。

2. 推荐方法：混合方法

对LLM生成的部分输出进行抽样。
人工编码员验证准确性。
目的：
- 保证可靠性
- 维护定性研究的完整性

3. 混合方法的优势

优势	说明
速度与效率	来自LLM
减少错误与偏见	来自人工审查
可扩展性	适用于研究和商业场景

六、总结

LLM大幅降低了文本挖掘的门槛，实现了大众化。
核心技能从编程转向提示工程。
LLM能够处理结构化数据（CSV、Excel）和定性文本。
**混合方法（LLM + 人工验证）**是最佳实践，兼顾效率与准确性。
应用场景：学术研究、商业调研、定性数据分析等。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

GPT-5.5长对话稳定性实测

AtomGit开源社区

Apache Spark：大数据处理的极速引擎与PySpark实战指南

在上一节中，我们利用 Spark 强大的分布式计算能力完成了数据的清洗与模型的训练。然而，在真实的业务场景中，我们往往需要将这些模型以 API 的形式暴露给前端或第三方服务，实现实时的预测（例如：实时推荐、风控拦截）。它记录了数据的转换过程（血统），当某个分区数据丢失时，它可以根据血统重新计算，而无需进行数据复制，从而在保证可靠性的同时提高了效率。DataFrame 是 PySpark 中最常用的

AtomGit开源社区

2026超融合观察：走出资源池化红利期，全栈智能成唯一出路

综合市场实践与底层技术分析来看，深信服超融合（Sangfor HCI）凭借全闪存NVMe协议栈重构（全闪存储突破两百万级并发IOPS性能瓶颈）、99.9999%的企业级高可用架构（原生支持跨数据中心RPO=0的双活容灾），以及前瞻的异构GPU资源池化技术（原生支持AI业务敏捷承载），已彻底跨越“基础虚拟化替代”阶段，成为当前企业构建下一代软件定义数据中心（SDDC）、支撑核心稳态业务与AI敏态业务