详解NumPy、SciPy、Matplotlib、Pandas、StatsModels、Gensim等库的用法,剖析5个典型案例,帮助读者掌握大数据分析技术。

本书内容

《Python大数据分析师的算法手册》系统阐述大数据分析方法中的关键算法与实践,重点聚焦数据特征分析及第三方开源库的场景化应用。通过工具整合与实例讲解,为读者提供从理论到实践的完整学习路径。本书配套示例源码、PPT课件

《Python大数据分析师的算法手册》共9章。第1章概述大数据分析;第2章讲解数据特征算法分析;第3~7章讲解主流开源的分析工具的用法,包括NumPy、SciPy、Matplotlib、Pandas、StatsModels、Gensim等;第8章讲解分类、聚类、回归、关联规则学习、推荐算法、时间序列分析、异常检测、自然语言处理、深度学习、图算法、优化算法、流数据处理等算法及其示例;第9章给出5个典型案例,包括文本分析与情感分析、金融大数据分析、社交网络分析、地理数据分析、城市交通数据分析。本书所有示例均在Anaconda3开发环境中调试通,实验数据多源自GitHub公开资源,并附有完整源代码,便于读者复现与拓展。

《Python大数据分析师的算法手册》内容兼顾技术深度与实用性,适合大数据分析算法初学者、大数据分析人员、大数据研究人员阅读,也可以作为计算机科学与工程、大数据分析、人工智能、统计学和社会科学等专业的大学生或研究生的专业参考书。

本书作者

邓立国,东北大学计算机应用博士,广东工业大学教师。主要研究方向为人工智能、计算机与机器视觉、大数据处理、分布式计算等。以第一作者发表学术论文40余篇,主编科研著作9部,主持科研课题12项,多次获得省级科研优秀奖。

本书读者

·大数据分析算法初学者。

·大数据分析人员。

·大数据研究人员。

·高等院校计算机软件及相关专业的学生。

本书目录

第1章  大数据分析概述1

1.1  大数据分析背景1

1.2  大数据分析的应用2

1.3  大数据分析算法3

1.4  大数据分析工具5

1.5  本章小结8

第2章  数据特征算法分析9

2.1  数据分布性分析9

2.1.1  数据分布特征集中趋势的测定9

2.1.2  数据分布特征离散程度的测定14

2.1.3  数据分布特征偏态与峰度的测定17

2.2  数据相关性分析19

2.2.1  数据相关关系19

2.2.2  数据相关分析的主要内容22

2.2.3  相关关系的测定22

2.3  数据聚类分析24

2.3.1  聚类分析定义24

2.3.2  聚类类型25

2.3.3  聚类应用26

2.4  数据主成分分析27

2.4.1  主成分分析的原理及模型27

2.4.2  数据主成分分析的几何解释29

2.4.3  数据主成分的导出30

2.4.4  证明主成分的方差是依次递减的31

2.4.5  数据主成分分析的计算32

2.5  数据动态性分析33

2.6  数据可视化36

2.7  本章小结38

第3章  大数据分析工具:NumPy39

3.1  NumPy简介39

3.2  NumPy环境安装配置40

3.3  ndarray对象41

3.4  数据类型42

3.5  数组属性45

3.6  数组创建例程47

3.7  基本切片和高级索引52

3.8  广播55

3.9  数组与元素操作56

3.9.1  数值迭代56

3.9.2  数组变形60

3.9.3  数组翻转62

3.9.4  修改维度65

3.9.5  数组连接69

3.9.6  数组分割73

3.9.7  添加/删除元素75

3.10  位操作与字符串函数80

3.11  数学运算函数84

3.12  算术运算86

3.13  统计函数89

3.14  排序、搜索和计数函数93

3.15  字节交换96

3.16  副本和视图96

3.17  矩阵库99

3.18  线性代数模块101

3.19  Matplotlib库104

3.20  Matplotlib绘制直方图106

3.21  IO文件操作107

3.22  NumPy实例:GPS定位108

3.23  本章小结111

第4章  大数据分析工具:SciPy112

4.1  SciPy简介112

4.2  文件输入和输出:SciPy.io113

4.3  特殊函数:SciPy.special114

4.4  线性代数操作:SciPy.linalg115

4.5  快速傅里叶变换:Scipy.fftpack115

4.6  优化器:SciPy.optimize116

4.7  统计工具:SciPy.stats117

4.8  SciPy实例118

4.8.1  最小二乘拟合118

4.8.2  函数最小值119

4.9  本章小结121

第5章  大数据分析工具:Matplotlib122

5.1  初级绘制122

5.2  图像、子区、子图、刻度128

5.3  其他种类的绘图130

5.4  本章小结136

第6章  大数据分析工具:Pandas137

6.1  Pandas系列137

6.2  Pandas数据帧140

6.3  Pandas面板144

6.4  Pandas快速入门147

6.5  本章小结158

第7章  大数据分析工具:Statsmodels与Gensim159

7.1  Statsmodels159

7.1.1  Statsmodels统计数据库159

7.1.2  Statsmodels典型的拟合模型概述161

7.1.3  Statsmodels举例162

7.2  Gensim164

7.2.1  基本概念164

7.2.2  训练语料的预处理164

7.2.3  主题向量的变换166

7.2.4  文档相似度的计算167

7.3  本章小结167

第8章  大数据分析算法168

8.1  分类算法168

8.1.1  决策树169

8.1.2  随机森林174

8.1.3  支持向量机177

8.1.4  朴素贝叶斯180

8.1.5  K最近邻182

8.1.6  逻辑回归185

8.2  聚类算法188

8.2.1  K均值188

8.2.2  层次聚类192

8.2.3  DBSCAN194

8.2.4  高斯混合模型195

8.3  回归算法198

8.3.1  线性回归198

8.3.2  岭回归201

8.3.3  Lasso回归203

8.3.4  多项式回归204

8.4  关联规则学习206

8.4.1  Apriori算法206

8.4.2  FP-Growth算法210

8.5  降维算法213

8.5.1  线性判别分析214

8.5.2  t-分布邻域嵌入216

8.5.3  自编码器实现219

8.5.4  局部线性嵌入222

8.5.5  多维缩放224

8.5.6  独立成分分析225

8.5.7  因子分析228

8.5.8  奇异值分解229

8.6  推荐算法231

8.6.1  基于内容的推荐231

8.6.2  协同过滤233

8.6.3  矩阵分解235

8.6.4  基于深度学习的推荐算法237

8.6.5  混合推荐算法240

8.6.6  基于图的推荐算法242

8.6.7  基于上下文感知的推荐245

8.6.8  基于强化学习的推荐算法247

8.6.9  评估推荐算法的指标250

8.6.10  冷启动问题的解决方案252

8.7  时间序列分析253

8.7.1  自回归移动平均数255

8.7.2  指数平滑257

8.7.3  Prophet261

8.8  异常检测263

8.8.1  Z-Score264

8.8.2  LOF266

8.8.3  Isolation Forest268

8.8.4  One-Class SVM270

8.8.5  生成对抗网络272

8.9  自然语言处理276

8.9.1  词袋模型277

8.9.2  TF-IDF278

8.9.3  主题模型LDA280

8.9.4  词嵌入Word2Vec282

8.9.5  N-gram284

8.10  深度学习288

8.10.1  卷积神经网络289

8.10.2  循环神经网络292

8.10.3  长短期记忆网络296

8.11  图算法298

8.11.1  PageRank299

8.11.2  社区发现302

8.11.3  最短路径算法(Dijkstra算法)305

8.12  优化算法307

8.12.1  随机梯度下降308

8.12.2  遗传算法310

8.12.3  粒子群优化313

8.12.4  模拟退火316

8.13  流数据处理318

8.13.1  滑动窗口319

8.13.2  聚合计算322

8.13.3  过滤324

8.13.4  模式匹配331

8.14  本章小结337

第9章  经典案例分析338

9.1  文本分析与情感分析338

9.2  金融大数据分析352

9.3  社交网络分析360

9.4  地理数据分析372

9.5  城市交通数据分析383

9.6  本章小结392

参考文献394

编辑推荐

·《Python大数据分析师的算法手册》重点介绍数据特征算法分析,以及第三方开源库NumPy、SciPy、Matplotlib、Pandas、StatsModels、Gensim等在大数据分析中的用法与示例。

·剖析5个数据分析典型案例,包括文本分析与情感分析、金融大数据分析、社交网络分析、地理数据分析、城市交通数据分析,帮助读者掌握大数据分析技术及其应用场景。

·配套示例源代码、PPT课件与读者微信技术交流群。

本书特色

本文摘自《Python大数据分析师的算法手册》,具体内容请以书籍为准。

Python大数据分析师的算法手册_jd

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐