一、什么是文本挖掘 What is text mining

课程主题:文本挖掘(Text Mining)

一、基本概念

  • 文本挖掘(也称文本分析)是人工智能(AI)在自然语言处理(NLP)领域的具体应用。
  • 目的:从大量非结构化文本(如邮件、博客、社交媒体、历史档案)中提取有价值信息。
  • 与数据挖掘的区别:
    • 数据挖掘:处理结构化数值数据。
    • 文本挖掘:处理非结构化文本数据。

二、AI在文本挖掘中的作用

  • 使用NLP、机器学习算法、模式识别技术。
  • 实现提取、探索、模式识别等功能。
  • 随着数据量指数级增长,AI驱动的文本挖掘成为处理海量信息的重要工具。

三、应用案例

1. 历史与意识形态研究
  • 分析历史文献、演讲、私人信件。
  • 例如:通过文本挖掘分析美国是否是“基督教国家”的争论。
  • 优势:基于可测量的语言模式,超越主观解释。
2. 娱乐与媒体(如《美国偶像》)
  • 2010年5月,通过分析社交媒体评论、推文等,预测冠军为Lee DeWyze。
  • 展示了基于受众情绪的实时预测能力。
3. 国家安全与反恐
  • NSA在11年内收集15–20万亿条数据,利用AI分析文本通信。
  • 通过关键词、模式、异常识别潜在威胁。
4. 执法与公共安全
  • 检测社交媒体上的威胁信息。
  • 可立即分析并采取行动,预防犯罪。
  • 但也引发隐私与监控的伦理争议。

四、总结与展望

  • 文本挖掘已广泛应用于历史、娱乐、安全、执法等领域。
  • 随着非结构化文本数据持续增长,AI驱动的文本挖掘将更加关键。
  • 伦理问题
    • 隐私保护
    • 知识产权
    • 安全与个人自由的平衡

补充一、文本挖掘与数据挖掘的关系 Forerunners of text mining

课程主题:文本挖掘是数据挖掘的子集吗?

一、主流观点:文本挖掘是数据挖掘的子集

  • 学术界与工业界普遍认为文本挖掘属于数据挖掘的子集
  • 在ICDM等数据挖掘顶级会议中,文本挖掘论文常被归入数据挖掘轨道。
  • 部分网站(如infomanel)也明确将文本 Mining 列为数据 Mining 的子集。
  • 这种观点暗示了一种层次关系:数据挖掘是更大的领域。

二、定义上的本质区别

维度 数据挖掘 文本挖掘
输入数据 结构化数据(关系数据库、数据仓库) 非结构化或半结构化文本(邮件、社交媒体、网页等)
数据形式 行与列代表明确变量 缺乏内在结构,包含自然语言
目标 发现模式、趋势、关系 提取含义、主题、情感

三、支持“子集说”的理由

  • 文本挖掘先通过TF-IDF、词袋模型、n-gram、词嵌入(Word2Vec、Glove、BERT等) 将非结构化文本转化为结构化向量
  • 然后可应用标准数据挖掘算法:聚类、分类、预测
  • 从这个操作角度看,文本挖掘是进入数据挖掘框架的专门入口

四、反对“子集说”的理由

1. 结构化输出不完全等同于数值变量
  • 开放问卷编码为类别变量,只适合频率分析或简单统计。
  • 不适合主成分分析等高级建模,除非进一步(往往任意的)编码。
2. 转换过程会丢失语境与细微差别
  • 文本含有歧义、讽刺、隐喻、文化背景,转化为数字后容易丢失。
  • 即使BERT、GPT等先进模型能更好保留语义,向量化后的输出仍不易被传统数据挖掘算法直接使用。
3. 方法和工具的差异
  • 文本挖掘核心流程源于计算语言学与NLP
    • 分词
    • 词性标注
    • 句法解析
    • 命名实体识别
    • 情感分析
    • 语义建模
  • 这些在传统数据挖掘工具中没有直接对应项

五、更准确的关系模型:维恩图(交集关系)

  • 不是小圆(文本挖掘)完全在大圆(数据挖掘)内。
  • 而是两个相交的圆
    • 交集:共享的技术(分类、聚类)与共同目标(发现模式、生成洞察)。
    • 各自保留独立的区域(独特的方法论与工具)。

六、比喻:从“主从关系”到“两位大师”

  • 层级关系暗示:数据挖掘是“全知主人”,文本挖掘是“从属仆人”。
  • 更准确的比喻:两位各自精通领域的大师,路径平行,携手合作时能互补优势。

七、结论:开放性问题

  • 目标与共享技术角度看,称文本 mining 为数据 mining 的子集并非错误。
  • 但从严格技术与概念角度看,文本 mining 包含独特挑战(预处理、表示、解释),扩展了数据挖掘的边界,而非仅仅居于其内。
  • 这是一个建设性辩论,随着NLP与机器学习不断发展,两者关系将持续变化。
  • 实践者应理解其区别与协同,以便有效利用结构化与非结构化数据。

二、文本挖掘的先驱 Forerunners of text mining


课程主题:文本挖掘的先驱——从传统定性分析到AI驱动

一、核心观点

  • 文本挖掘并非全新概念,而是传统定性研究方法的演进与延伸
  • 传统方法(如内容分析、扎根理论)长期以来依靠人工分析文本、视觉或音频内容,以识别模式、主题和潜在含义。

二、传统定性研究方法

1. 内容分析(Content Analysis)
  • 目标:对数据进行分类与解释
  • 应用示例
    • 宗教研究:分类18世纪瑞典圣诗,检测对教会正统的潜在挑战。
    • 政治学:Lasswell团队用于宣传研究,理解大众传播如何影响舆论。
    • 心理学:Gordon Allport用于人格测试数据分析。
2. 扎根理论(Grounded Theory)
  • 目标:通过迭代编码与比较生成理论。
  • 关键要求:研究者必须搁置所有先入之见
  • 挑战:这一理想状态说起来容易,做起来难

三、人工定性分析的局限性

案例研究:作者与Marcus Mendoza关于监狱工作人员对监禁态度的研究

  • 分析开放回答,判断狱警倾向:
    • 报应(Retribution)
    • 威慑(Deterrence)
    • 改造(Rehabilitation)
  • 问题:人工分析极其繁琐耗时,需要处理大量文本数据。
  • 解决方案:AI可自动化这些任务,显著减轻人工负担。

四、关键先驱人物:Don R. Swanson

1. 背景
  • 学历:加州大学伯克利分校理论物理学博士
  • 职业:物理学家 → 芝加哥大学图书馆学研究生院教授兼院长
  • 非生物医学专业出身
2. 核心贡献:概念链接(Concept Linking)
  • 方法:通过仔细审视现有文献,识别看似不相关概念之间的关系
  • 目的生成新假设
3. 经典案例(1986年)
步骤 内容
文献分析 考察医学文献
提出假设 鱼油摄入 → 降低血液黏度 → 与雷诺氏病(Reynold’s disease)存在关联
验证 DiGiacomo, Kremer & Shah(1989)通过实验研究证实该假设
后续成功 同一方法应用于 压力、偏头痛与镁缺乏 的关联研究,亦获实证支持
4. 意义
  • Swanson证明了:通过系统文本分析可以提取隐性知识(Latent Knowledge)。
  • 他的方法为现代文本挖掘技术奠定了基础。
  • 展示了跨学科方法如何带来突破性发现。

五、从传统到现代的演进

维度 传统定性分析 现代文本挖掘
执行方式 人工手动 AI驱动(NLP、LLM)
效率 繁琐、耗时 快速、自动化
方法基础 内容分析、扎根理论 概念链接、NLP、机器学习
核心价值 分类、解释、理论构建 模式识别、假设生成、大规模分析

六、结论

  • 文本挖掘深深扎根于内容分析与扎根理论等传统定性方法。
  • 从人工到AI的转变简化了研究流程,提高了效率。
  • Don R. Swanson的概念链接工作,证明了通过文本分析揭示隐藏知识的巨大潜力。
  • 文本挖掘不是新趋势,而是成熟方法论的高级扩展

七、关键术语速记

术语 含义
内容分析 分类与解释数据
扎根理论 通过编码与比较生成理论
概念链接 发现不同概念之间的关系
隐性知识 未明确表达但可通过分析提取的知识
跨学科 结合不同领域的方法与视角

三、自然语言处理与大预言模型 NLP and LLM

课程主题:自然语言处理(NLP)——文本挖掘的基础

一、NLP的基本定位

  • 定义:NLP是人工智能(AI)与计算语言学的关键子领域,是文本挖掘的基石
  • 作用
    • 增强扎根理论、概念链接等方法论,实现数据分析自动化。
    • 软件不仅要处理单词,还要理解上下文,才能生成准确解释。
    • 没有NLP,文本挖掘将无法捕捉人类语言的复
    • 杂性与细微差别。

二、大语言模型(LLMs)的进步

  • LLMs是NLP的重大进展,依赖海量数据集处理和生成类人文本。
  • 代表模型:OpenAI的GPT-4、GPT-4.5(代号Orion)。
  • 参数(Parameters)的含义:
    • 定义模型学习与生成文本能力的数值
    • 训练过程中不断调整的学习权重
    • 与编程中的变量不同:变量是存储位置;LLM参数是优化文本处理的权重。
    • 参数越多 → 模型对语言的理解越复杂、越细腻
参数规模示例(未公开确认,业界推测):
模型 推测参数数量
GPT-4 1.76 万亿
GPT-4.5 (Orion) 12 万亿

三、LLMs的训练方式

  • 数据来源:书籍、文章、网页等大量文本。
  • 学习方式自监督学习,无需人工标注。
  • 学习内容
    • 语言模式
    • 关系
    • 句法结构
  • 结果:能够预测、生成、响应人类输入,模拟自然交流。

四、ChatBot(聊天机器人)——LLM的前端应用

  • 作用:提供用户友好的对话界面
  • 典型例子:
    • OpenAI的ChatGPT
    • Microsoft Copilot
    • Meta AI的Llama
  • 可实现的功能:
    • 解释用户查询
    • 生成回答
    • 总结文章
    • 回答技术问题
    • 交互式讲故事

关系总结:LLM在后台运行,ChatBot在前台提供交互界面,使NLP技术可被广泛使用。

五、结论

  • NLP是AI的核心组成部分,支撑着文本挖掘、大语言模型、聊天机器人三大应用方向。
  • 面临挑战:语言歧义性仍然存在,需要持续研究与优化。
  • 未来展望:NLP将进一步提升AI处理、理解、生成人类语言的能力,成为现代计算中不可或缺的工具

四、自然语言处理的挑战 challenges of NLP

课程主题:NLP的主要挑战——语言中的歧义与复杂性

一、核心问题:人类语言的复杂性与歧义性

  • NLP面临的最大困难:词义依赖上下文而变化
  • 模型必须能够辨别上下文差异,才能准确处理语言。

二、词义歧义(Lexical Ambiguity)示例

词语 不同含义示例
book • 预订(I book a ticket)
• 书(read a book)
senior 高年级学生、老年人、高级经理
sex 生物性别、教育政策中的“性”教育

三、句法与语义的交互作用

  • 句子理解同时受语义(词义)和句法(词语排列方式)影响。
  • 经典例子:
    • “The spy saw the man with the binoculars”
      • 歧义:间谍用望远镜看?还是那个男人拿着望远镜?
    • “The bird saw the man with the binoculars”
      • 歧义减少:鸟通常不会使用望远镜。

说明:人类认知会同时整合句法与语义,NLP系统需要模拟这种能力。

四、历史文化背景缺失导致的歧义

例1:新闻标题

“Soviet Virgin Lands Short of Goal Again”

  • 表面理解(无背景):可能以为是苏联的某次航班着陆失败。
  • 实际含义:“处女地运动”是1950年代苏联的一项农业计划,该标题指农业产量未达标。
  • 问题:AI缺乏历史文化背景知识,除非专门训练过。

补充背景:该农业计划因基础设施差、生活条件恶劣、粮食储存不足而失败,导致大量粮食浪费。

例2:新闻标题(福克兰战争期间)

“British Left Waffles on Falkland Island”

  • 表面理解:英国人把华夫饼留在了岛上。
  • 实际含义:描述英国政界对福克兰危机的犹豫不决(waffles 此处意为“犹豫/含糊其辞”)。
  • 问题:AI难以理解习语表达,除非训练过大量文化与历史数据集。

五、结构歧义(Structural Ambiguity)示例

以下标题均可产生多种合理解释:

标题示例 歧义说明
The student failed the professor 谁失败?谁导致失败?
Eye drops off shelf 眼睛从架子上掉下来?/ 眼药水下架?
Teacher strikes idle kids 老师打懒惰的孩子?/ 老师罢工导致孩子闲着?
Farmer Bill dies in house 名叫Bill的农夫去世?/ 关于农业的法案(Bill)在众议院未通过?
Iraqi head seeks arms 伊拉克领导人寻求武器?/ 伊拉克的头部寻找手臂?

有些歧义只能通过真实世界的额外知识来消解。

六、总结与展望

  • 核心挑战

    • 多义词(词义歧义)
    • 上下文依赖
    • 句法结构歧义
    • 习语表达
    • 历史文化背景缺失
  • 当前局限

    • AI虽然在语言处理上取得了显著进步,但仍难以像人类那样轻松消解歧义。
    • 难以理解超出表层句法和定义的深层含义。
  • 未来方向

    • 持续改进机器学习方法
    • 增强上下文感知能力
    • 更好整合外部知识(历史、文化、常识)

最终结论:像人类一样完全理解并处理语言,仍然是AI面临的最大挑战之一


五、自然语言处理的步骤 Steps of NLP

课程主题:NLP的主要步骤与挑战

一、NLP的核心处理流程

NLP从原始文本中提取有意义的词和短语,通常包含以下三大步骤:

  1. 预处理(Pre-processing)

    • 分词
    • 停用词移除
    • 词干提取
    • 词形还原
  2. 分类(Categorization)

    • 将词和短语归类到概念或主题中
  3. 概念链接(Concept Linking)

    • 识别概念之间的关系

理想情况下,NLP系统应自动完成这些步骤以提高效率与准确性。某些软件(如AutoMap)需要大量人工预处理,效率较低。


二、预处理的关键技术

1. 分词(Tokenization)
  • 定义:将文本切分为有意义的单元,同时保留上下文。
  • 关键点:标点符号的处理需谨慎。
  • 示例:IP地址 129.2.13.105 中的点不能删除,否则变成 129213105,失去意义。
2. 花园幽径句(Garden Path Sentences)
  • 定义:句子在阅读过程中造成临时歧义,误导读者。
  • 示例
    • "After the musician played the piano was wheeled off the stage"
    • 初始误解:音乐家在钢琴上演奏。
    • 正确理解:钢琴被推下舞台(音乐家演奏之后)。
  • 解决方法:NLP需结合句法分析和语义分析,而非仅依赖词序列。
3. 停用词移除(Stop Word Removal)
  • 定义:过滤掉常见但非必需的词,如 a, an, the, is, but
  • 需谨慎的原因:停用词有时承载重要含义。
    • "To be or not to be" —— 移除 tobe 会完全破坏语义。
    • "The room is beautiful, but not in the color that I favor" —— but 转变了句子情感。
    • "I'd love to go out with you, but not tonight" —— but 隐含委婉拒绝。
4. 词干提取(Stemming)与词形还原(Lemmatization)
技术 方法 示例
Stemming 移除前后缀,有时粗暴截断 computational / computing → compute
Lemmatization 基于语言学规则,返回词典原形 boys → boy, children → child

两者共同作用:标准化文本数据,提高语言建模的一致性。


三、BERT与Transformer的突破

BERT(双向编码器表示)
  • 提出时间:Google 2018–2019年
  • 核心创新双向处理
    • 传统模型:从左到右顺序阅读,容易误解。
    • BERT:一次读取整个句子,同时考虑每个词的左右上下文
Transformer框架
  • 提出时间:Google 2017年
  • 核心机制自注意力机制(Self-Attention)
  • 作用:确定词之间的上下文关系。

示例对比

"Brazil traveler to USA need a visa"

  • 早期NLP模型:可能误解为“美国旅行者去巴西需要签证”。
  • BERT:正确理解为“从巴西去美国的旅行者需要签证”。

四、情感分析(Sentiment Analysis / Opinion Mining)

基本分类
  • 正面 / 负面 / 中性
示例
  • "I don't like the computer lab" → 明确负面
  • "I think the computers at the lab are outdated" → 隐含批评
主要挑战
挑战类型 说明 示例
讽刺(Sarcasm) 字面与实际含义相反 “教授太棒了!我一点没学,整学期闭眼还得A。” → 基础NLP会误判为正面
否定(Negation) 一个词反转情感极性 "No one thinks it is good"good 正面,但整句负面
价移(Valence Shifting) 某些词剧烈改变情感方向 "This is a missed opportunity"opportunity 正面,但 missed 表达遗憾
反事实语句(Counterfactual) 隐含不满 "It would be better if the Wi-Fi is faster"
改进方法
  • CNN(卷积神经网络):通过建模局部文本特征、识别句子内部矛盾,帮助检测讽刺。
  • BERT:显著改进情感分析,能够识别否定词等改变含义的要素。

五、总结

  • NLP核心流程:预处理 → 分类 → 概念链接
  • 关键技术:分词、停用词处理、词干提取/词形还原、BERT/Transformer、CNN
  • 持续挑战:
    • 句法/语义歧义(花园幽径句等)
    • 停用词依赖上下文的含义
    • 讽刺、否定、价移、反事实语句
  • 深度学习进展(尤其是BERTCNN)显著提升了NLP理解人类语言的能力,但该领域仍在不断发展。

六、谷歌词频统计与趋势


课程主题:数据驱动的社会心理学与文化变迁研究工具

一、概述

  • 核心工具
    • Google Ngram Viewer (GBNV)
    • Google Trends
  • 研究价值:通过分析大规模语言数据和实时搜索行为,理解人类思想与行为的历史与当代变迁
  • 应用领域:社会心理学、社会文化变迁、范式转移(Paradigm Shifts)研究。

二、Google Ngram Viewer(GBNV)

1. 基本概念
  • N-gram:由“n”个连续单词组成的序列。
  • 与传统分词的区别
    • 传统方法:孤立地切分单词。
    • N-gram:将单词组成有意义的序列,保留上下文
2. N-gram示例(以“tear down this wall”为例)
n值 名称 生成的序列
n=2 Bigram “tear down”, “down this”, “this wall”
n=3 Trigram “tear down this”, “down this wall”
3. 数据规模
  • 覆盖超过三个世纪的数百万本书籍。
  • 初始:500万本书(多语种:英、法、西、德、中、俄、希伯来语等)。
  • 2012年:新增300万本书。
  • 2020年2月:数据集扩展至包含2019年之前出版的书籍。
4. 应用案例:科学范式转移
  • 理论背景:Thomas Kuhn于1962年提出的“范式转移”概念。
  • 案例:牛顿力学 → 相对论与量子力学。

分析操作步骤

  1. 访问 Google Ngram Viewer。
  2. 输入关键词:Newtonian, quantum, theory of relativity
  3. 使用通配符(*)捕获变体,如 Newtonian * 可匹配“Newtonian mechanics”或“Newtonian physics”。
  4. 设置时间范围:1920–2019年。

研究发现

  • 量子力学(红线)在词频上持续占优,超越爱因斯坦相对论。
  • 峰值出现在2009年左右,之后缓慢下降,反映科研焦点的转移。

三、Google Trends(谷歌趋势)

1. 功能定位
  • 提供实时搜索词频分析,反映当代公众兴趣。
  • 揭示:公开表达 vs 私下想法之间的差异。
2. 关键研究者
  • Seth Stevens-Davidowitz
    • 人们往往在公开场合遵循社会规范。
    • 通过匿名搜索查询暴露真实的关注点与偏见。
3. 局限与注意事项
  • 并非绝对可靠:某些模式可能误导,需结合上下文解释。

典型案例:搜索“Islam”与“essays”的相关性

  • 表面现象:两者搜索频率呈正相关。
  • 实际解释:学术日历驱动——学生在特定学期研究宗教主题完成作业。
  • 结论:搜索趋势受外部因素(如学校日程)影响。
4. 学术支持
  • Goist & Monroe (2020):学术需求塑造互联网搜索模式,某些主题在特定时间可预测地上升。

四、两类工具的对比与互补

维度 Google Ngram Viewer Google Trends
时间维度 长期(数百年) 短期/实时
数据来源 已出版书籍文献 用户搜索查询
擅长领域 历史语言变迁、范式转移 当代公众情绪、新兴文化现象
典型输出 词频随时间变化曲线 搜索热度随时间/地区分布

共同价值

  • 帮助研究者理解语言、意识形态、知识结构的演变。
  • 提供从历史转型当下现实的深入洞察。

五、总结

  • GBNV与Google Trends是研究文化变迁与范式转移的强大数据驱动工具。
  • N-gram方法通过保留上下文,弥补了传统分词的不足。
  • 科学范式(如牛顿力学→量子力学)可通过词频分析可视化。
  • Google Trends揭示真实心理,但必须考虑季节性、学术周期等外部因素
  • 两类工具互补使用,可获得更完整的语言与社会变迁图景。

七、潜在类别分析 Latent class analysis


课程主题:潜在类别分析(LCA)与文本聚类

一、LCA基本概念

  • 定义:潜在类别分析(Latent Class Analysis)是一种用于从文本数据中识别子群体的统计技术。
  • 应用场景:学生体验管理、在线学习环境偏好研究。
  • 本质:LCA是一种专门针对文本数据的聚类分析形式。

二、案例研究背景

  • 数据来源:美国西南部某大学的开放问卷回答。
  • 研究问题:学生对“理想在线学习环境”的看法与偏好。
  • 数据类型:开放性问题回答(文本)。
  • 数据性质:专有数据,不公开(仅供演示)。

注:本案例为演示,不要求实际操作,但可用自己的数据运行相同分析。


三、使用JMP进行分析的步骤

步骤 操作
1 菜单选择:AnalyzeText Explorer
2 设置字段:Respondent ID → ID列;开放回答 → Text列
3 选择 Stem all terms(词干提取)
4 点击 OK
5 可视化词频:倒三角 → Display OptionsShow Word Cloud
6 调整词云布局:LayoutCentered
7 选择 Latent Class Analysis(默认5个类别,可接受)
8 查看某类细节:选择类别 → Show Text

四、LCA的多维缩放(MDS)可视化

  • 补充方法:多维缩放(Multi-Dimensional Scaling, MDS)
  • 作用:与聚类分析配合,可视化词与词之间的关系
  • 输出示例:生成5个不同的词聚类,代表数据集中的主要概念主题

五、聚类结果解读

1. 聚类命名
  • 查看每个聚类的文本内容 → 根据概念命名聚类 → 归类为更广泛的概念。
2. 识别出的学生偏好与需求示例
  • 讲课录像(lecture recordings)
  • 作业链接(links to assignments)
3. 两个主要概念示例
概念 核心内容
概念一 用户友好性(User Friendliness)与用户界面(UI)——强调直观、无缝的数字学习体验
概念二 课程资源可访问性(Accessibility to Course-related Resources)——学生需要便捷获取学习材料

六、总结

  • LCA的价值:从开放问卷等文本数据中自动识别子群体,发现共同主题。
  • 与MDS配合:将聚类结果以图形方式呈现,便于理解和解释。
  • 实际应用:帮助研究者理解学生期望与优先事项,优化在线学习环境设计。
  • 工具:本演示使用 JMP 软件的 Text Explorer 模块。

八、在JMP Pro 中进行情感分析 Sentiment analysis in JMP


课程主题:情感分析在学生评教中的应用

一、研究背景:学生评教与成绩的关系

1. 早期研究(Centra, 2003)
  • 核心发现:学生评教与成绩宽容度课业负担减轻之间没有实质性关联。
  • 数据规模:约55,000门课程(1995–1999年)。
  • 统计方法:相关分析 + 逐步回归。
    • 预期成绩与整体评分的相关系数仅为0.11
    • 回归分析显示:预期成绩对评教的影响极小。
  • 方法局限
    • 逐步回归(Stepwise Regression)在当时常用,但现已不被推荐
    • Gary Smith批评:逐步回归常选中无关变量、遗漏关键变量,可靠性低。
    • 现代替代方法:XGBoost、Bootstrap Forest 等机器学习方法。

注:因无法获取原始数据,视频作者对该研究结论暂不判断


二、替代研究方法:文本挖掘 + 情感分析

1. 数据来源
  • 网站:RateMyProfessors.com
  • 数据集名称:Rate My Professor Sample Data
  • 样本量:20,000条(跨大学、跨院系)
  • 数据类型
    • 数值评分
    • 学生评论文本
  • 用途:学生选课参考,不用于人事决策
  • 研究价值:帮助教育研究者理解学生感知、教学质量、分数通胀之间的关系。

本研究的创新点:使用实际成绩而非预期成绩。


三、使用JMP进行情感分析的步骤

步骤 操作
1 AnalyzeText Explorer
2 将评论文本放入 Text Columns
3 勾选 Stem all terms(词干提取,合并相似词)
4 点击 OK
5 输出窗口中:倒三角 → Sentiment Analysis
6 情感分析倒三角 → Save Document Scores

四、情感分析输出解读

  • 情感得分范围-100 到 100
    • 0 = 完全中性
    • > 0 = 正面情感
    • < 0 = 负面情感
  • 算法能力:判断文本的情感极性(正面/负面/中性)。
  • 开放问卷的优势
    • 李克特量表:仅产生数值评分。
    • 开放回答:提供详细洞察,解释学生为什么给出高分或低分。

五、分析与成绩的关系:均值分析(ANOM)

1. 均值分析方法
  • 定义:一种图形化统计方法,同时比较多个组的均值与总均值
  • 优势:比传统的事后多重比较更简洁易用。
  • 历史
    • 1967年:为统计质量控制发明。
    • 1980年代:制造业流行。
    • 1990年代:扩展到服务业和医疗行业。
    • 被社会科学家忽视
2. JMP操作步骤
步骤 操作
1 AnalyzeFit Y by X
2 成绩 → X,总体情感得分 → Y
3 点击 OK
4 倒三角 → Analysis of Means (ANOM)
3. 关键发现(样本量20,000,其中16,708未报告成绩)
  • 平均情感得分(排除缺失后):32.84
  • 高于平均的组:仅 A- 或 A+ 的学生
  • 处于平均水平的组:B+
  • 低于平均的组:其余所有成绩等级
成绩等级 情感得分相对水平 备注
红点在均值线上方 显著偏离平均 如 D-、D+、F → 负面情感极强
红点未标记 不显著偏离

含义:若教授希望学生情感得分保持在平均以上,必须避免给出任何低于A的成绩


六、结论:学生评教与分数通胀

本研究的结论
  • 与2003年Centra研究直接矛盾
  • 支持以下观点:学生评教会加剧分数通胀、降低学术标准
相关研究支持
年份 研究者 核心观点
2016 Nate, Cornell, Hausman 获得较低评教的教师,在后续课程中的学习效果反而更好。高挑战性课程 → 低评教,但长期学习效果更佳。学生往往不欣赏严格的教师。
2018 John Lawrence 学生评教分数是教学效果的不良指标。受多种与教学质量无关因素影响:成绩期望、课程享受度、教师性别/种族/年龄/外貌、甚至调查当天的天气
2020 Wolfgang Strobe 学生评教不衡量教学有效性。将其用于教师聘用、晋升、加薪决策,会激励不良教学实践并加剧分数通胀。
最终建议
  • 学生评教应谨慎解读

七、总结

维度 内容
研究问题 学生情感与所获成绩的关系
数据源 RateMyProfessors.com(20,000条)
分析方法 情感分析 + 均值分析(ANOM)
核心发现 只有A-及以上学生的情感得分高于平均;低于A的成绩都会导致情感低于平均
实践含义 评教会激励教授给高分,导致分数通胀
建议 评教结果应谨慎使用,不宜作为教学效果的唯一或主要依据

九、用于文本挖掘的人工智能聊天机器人 AI chatbots for text mining


课程主题:使用AI聊天机器人进行文本挖掘

一、传统文本挖掘 vs. LLM驱动的文本挖掘

维度 传统文本挖掘 LLM驱动的文本挖掘
软件成本 昂贵 显著降低/可负担
技术门槛 需专门培训与专业知识 仅需提示工程
交互方式 复杂编码 自然语言命令
可及性 限于少数专家 大众化,人人可用

核心转变:LLM使文本挖掘不再依赖昂贵软件和深厚编程背景


二、案例研究:学生关于LLM伦理担忧的调查

1. 研究背景
  • 目的:收集学生对LLM的使用情况与看法。
  • 数据类型
    • 强制选项回答
    • 开放反馈(定性数据)
2. 具体分析问题

“请详细说明你对使用LLM可能导致的不道德结果的担忧。”

3. 分析工具
  • ChatGPT(作为LLM代表)

三、使用LLM进行文本挖掘的操作步骤

步骤 操作
1 将数据文件上传至ChatGPT
2 提供具体且详细的提示(Prompt)
3 提示中应包含:
- 目标列
- 要执行的任务
- 期望的输出格式
4 示例提示要求:
- 识别共同主题
- 以表格形式输出结果
- 每行包含:主题、简要描述、学生原话引用
支持的数据格式
  • CSV
  • Excel(xlsx)

LLM与广泛使用的数据存储格式兼容。


四、输出示例(提示设计)

列名 内容
主题 从学生回答中提取的主题名称
简要描述 对该主题的解释
学生原话引用 直接引用支撑该主题的典型回答

五、重要注意事项

1. LLM并非绝对可靠
  • 可能产生错误误解
  • 需要人工监督
2. 推荐方法:混合方法
  • 对LLM生成的部分输出进行抽样
  • 人工编码员验证准确性。
  • 目的:
    • 保证可靠性
    • 维护定性研究的完整性
3. 混合方法的优势
优势 说明
速度与效率 来自LLM
减少错误与偏见 来自人工审查
可扩展性 适用于研究和商业场景

六、总结

  • LLM大幅降低了文本挖掘的门槛,实现了大众化
  • 核心技能从编程转向提示工程
  • LLM能够处理结构化数据(CSV、Excel)和定性文本
  • **混合方法(LLM + 人工验证)**是最佳实践,兼顾效率与准确性。
  • 应用场景:学术研究、商业调研、定性数据分析等。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐