《数据挖掘（主编：吕欣、王梦宁）》读书笔记总结

白开水就盒饭

535人浏览 · 2026-05-18 13:19:06

白开水就盒饭 · 2026-05-18 13:19:06 发布

第一章绪论——《数据挖掘（主编：吕欣、王梦宁）》读书笔记

参考资料：

《数据挖掘（主编：吕欣、王梦宁）》

XL-lab-bigdata/DataMining

CSDN / 知乎相关学习笔记

《复杂网络》

《Python 大数据实践》

《大数据平台架构》

1. 数据挖掘的时代背景

1.1 大数据时代的到来

随着互联网、移动通信、物联网与社交媒体的发展，人类社会已经进入“大数据时代”。

目前数据具有典型的 4V 特征：

特征	英文	含义
Volume	数据量大	TB、PB、EB级数据
Velocity	数据速度快	实时流式数据
Variety	数据多样	文本、图像、轨迹、网络
Value	价值密度低	有价值信息占比低

传统数据分析方法已经难以处理：

海量数据
高维数据
动态数据
非线性复杂系统

因此，数据挖掘逐渐成为现代数据科学的重要基础。

2. 什么是数据挖掘

2.1 数据挖掘定义

数据挖掘（Data Mining）：

从大量、不完全、有噪声、随机的数据中，
自动提取潜在有价值知识与模式的过程。

其核心目标是：

数据(Data)
    ↓
信息(Information)
    ↓
知识(Knowledge)
    ↓
决策(Decision)

2.2 数据挖掘与传统统计分析的区别

对比维度	传统统计分析	数据挖掘
数据规模	小样本	海量数据
数据类型	结构化	多源异构
分析目标	验证假设	自动发现规律
方法特点	理论驱动	数据驱动
可扩展性	较弱	强

3. 数据、信息与知识

3.1 三者关系

3.2 数据层次分析

层次	特点	示例
数据	原始记录	GPS轨迹
信息	加工结果	出行热点
知识	潜在规律	城市中心吸引效应

4. 数据挖掘与相关学科

4.1 学科交叉关系

5. 数据挖掘的核心任务

5.1 分类（Classification）

监督学习问题：

根据已知标签训练模型，对未知样本进行预测。

Python 示例

from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y)

clf = DecisionTreeClassifier()

clf.fit(X_train, y_train)

pred = clf.predict(X_test)

5.2 聚类（Clustering）

无监督学习：

自动发现数据中的潜在结构。

K-Means 聚类流程

Python 示例

from sklearn.cluster import KMeans

model = KMeans(
    n_clusters=4,
    random_state=42
)

model.fit(X)

labels = model.labels_

5.3 回归分析（Regression）

线性回归模型：

y=\beta_0+\beta_1x+\epsilon

Python 示例

from sklearn.linear_model import LinearRegression

model = LinearRegression()

model.fit(X_train, y_train)

y_pred = model.predict(X_test)

6. 数据挖掘的一般流程

7. 模型评估指标

分类任务指标

指标	含义
Accuracy	准确率
Precision	精确率
Recall	召回率
F1-score	综合指标

回归任务指标

指标	含义
RMSE	均方根误差
MAE	平均绝对误差
R²	拟合优度

R²公式：

R^2=1-\frac{\sum(y_i-\hat y_i)^2}{\sum(y_i-\bar y)^2}

8. 大数据平台架构

Hadoop 生态

9. 数据挖掘在复杂系统中的应用

城市科学

应用包括：

城市功能区识别
mobility regime
碳排放预测
交通优化

疫情传播

Mobility Network
        +
SEIR Model
        +
Machine Learning
        ↓
Epidemic Prediction

10. 个人理解与思考

我认为：

数据挖掘不仅是一种算法工具，
更是一种理解复杂系统的方法。

未来数据挖掘的重要方向包括：

方向	特点
图神经网络	网络结构学习
因果推断	超越相关性
时空数据挖掘	动态系统
可解释AI	增强可信度
多模态学习	图文融合

11. 总结

数据挖掘本质上是：

从复杂数据中发现规律、
提取知识、
辅助决策的过程。

随着：

AI
大数据
复杂网络
城市计算

的发展，数据挖掘将在未来社会治理与复杂系统研究中发挥越来越重要作用。

参考资料

《数据挖掘（主编：吕欣、王梦宁）》
XL-lab-bigdata/DataMining
《复杂网络》
《Python 大数据实践》
《大数据平台架构》

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

WalkingLab 组织入驻 AtomGit，释放高校智能体开源科研成果

AtomGit开源社区

全球首个！京东全栈开源JoyAI-VL-Interaction，让大模型从“一问一答”走向“边看边说”

AtomGit开源社区

海外动态代理行业彻底换代，AI 数据时代新标准已到来

AtomGit开源社区

所有评论(0)

查看更多评论

白开水就盒饭

@JWsunshine

已为社区贡献2条内容

《数据挖掘（主编：吕欣、王梦宁）》读书笔记总结

白开水就盒饭

第一章 绪论——《数据挖掘（主编：吕欣、王梦宁）》读书笔记

1. 数据挖掘的时代背景

1.1 大数据时代的到来

2. 什么是数据挖掘

2.1 数据挖掘定义

2.2 数据挖掘与传统统计分析的区别

3. 数据、信息与知识

3.1 三者关系

3.2 数据层次分析

4. 数据挖掘与相关学科

4.1 学科交叉关系

5. 数据挖掘的核心任务

5.1 分类（Classification）

Python 示例

5.2 聚类（Clustering）

K-Means 聚类流程

Python 示例

5.3 回归分析（Regression）

Python 示例

6. 数据挖掘的一般流程

7. 模型评估指标

分类任务指标

回归任务指标

8. 大数据平台架构

Hadoop 生态

9. 数据挖掘在复杂系统中的应用

城市科学

疫情传播

10. 个人理解与思考

11. 总结

参考资料

所有评论(0)

温馨提示：您尚未绑定手机号

白开水就盒饭

第一章绪论——《数据挖掘（主编：吕欣、王梦宁）》读书笔记