基于python的空气质量数据分析预测及可视化

高山流水&上善

339人浏览 · 2026-04-13 16:36:03

高山流水&上善 · 2026-04-13 16:36:03 发布

项目领取地址：

通过网盘分享的文件：源码获取.txt
链接: https://pan.baidu.com/s/157q4QdD9HT_Yl13iqEJY-g?pwd=mw4q 提取码: mw4q

项目效果：

整体项目设计文档：

## 一、系统架构设计

### 1.1 整体架构

```
┌─────────────────────────────────────────────────────────┐
│ 表现层 (Presentation Layer) │
│ ┌──────────────────────────────────────────────┐ │
│ │ Web前端界面 (HTML + CSS + JavaScript) │ │
│ │ - ECharts数据可视化 │ │
│ │ - Bootstrap响应式布局 │ │
│ └──────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────┘
↕ HTTP/REST API
┌─────────────────────────────────────────────────────────┐
│ 应用层 (Application Layer) │
│ ┌──────────────────────────────────────────────┐ │
│ │ Flask Web框架 │ │
│ │ - 路由控制 │ │
│ │ - 数据接口API │ │
│ │ - 模板渲染 │ │
│ └──────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────┘
↕ 数据处理
┌─────────────────────────────────────────────────────────┐
│ 业务层 (Business Layer) │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ 数据采集模块 │ │ 数据分析模块 │ │ 预测模块 │ │
│ │ - 爬虫引擎 │ │ - 统计分析 │ │ - 线性回归 │ │
│ │ - 数据存储 │ │ - 相关性分析 │ │ - 模型评估 │ │
│ └──────────────┘ └──────────────┘ └──────────────┘ │
└─────────────────────────────────────────────────────────┘
↕ 数据存储
┌─────────────────────────────────────────────────────────┐
│ 数据层 (Data Layer) │
│ ┌──────────────────────────────────────────────┐ │
│ │ - CSV文件存储 (原始数据/清洗后数据) │ │
│ │ - 模型文件存储 (.pkl) │ │
│ └──────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────┘
```

### 1.2 技术选型说明

| 技术/框架 | 用途 | 选型理由 |
| ------------------ | ------------ | -------------------------- |
| Python 3.8+ | 开发语言 | 丰富的数据分析库，易于实现 |
| Flask | Web框架 | 轻量级、灵活、易于学习 |
| BeautifulSoup | 网页解析 | 简单易用，适合静态网页爬取 |
| Requests | HTTP请求 | 稳定可靠，支持各种请求方式 |
| Pandas | 数据处理 | 强大的数据处理和分析能力 |
| Numpy | 数值计算 | 高效的数组运算 |
| Scikit-learn | 机器学习 | 提供线性回归等经典算法 |
| Matplotlib/Seaborn | 静态图表 | 用于论文中的统计图表 |
| ECharts | 交互式可视化 | 强大的Web可视化库 |
| Bootstrap | 前端UI框架 | 快速构建响应式界面 |

---

## 二、系统功能模块设计

### 2.1 数据采集模块 (Data Crawler Module)

#### 2.1.1 功能说明

- 从空气质量历史数据网站爬取AQI数据
- 支持多城市、多时间段数据采集
- 自动处理反爬机制（延时、User-Agent等）

#### 2.1.2 核心组件

```
crawler/
├── lishi.py # 天气数据爬虫（辅助数据）
├── aqi_crawler.py # AQI数据爬虫（主数据源）
├── city.json # 城市编码配置
└── config.py # 爬虫配置参数
```

#### 2.1.3 实现要点

- **目标网站**：https://www.aqistudy.cn/historydata/
- **数据字段**：日期、城市、AQI、PM2.5、PM10、SO2、NO2、CO、O3、质量等级
- **爬取策略**：
- 分页爬取历史数据
- 随机延时3-5秒防止IP封禁
- 使用代理池（可选）
- 设置请求头模拟浏览器

#### 2.1.4 数据存储格式

```csv
城市,日期,AQI,质量等级,PM2.5,PM10,SO2,NO2,CO,O3
北京,2022-01-01,85,良,63,92,8,45,0.8,56
```

### 2.2 数据预处理模块 (Data Processing Module)

#### 2.2.1 功能说明

- 数据清洗：去重、缺失值处理、异常值检测
- 数据转换：类型转换、单位统一
- 特征工程：时间特征提取、衍生变量构造

#### 2.2.2 核心组件

```
data_processing/
├── cleaner.py # 数据清洗
├── transformer.py # 数据转换
├── feature_engineer.py # 特征工程
└── validator.py # 数据验证
```

#### 2.2.3 处理流程

1. **重复值处理**：按日期+城市去重
2. **缺失值处理**：
- 小于5%：删除记录
- 5%-20%：线性插值填充
- 大于20%：使用均值/中位数填充
3. **异常值处理**：
- 使用3σ原则或IQR方法识别
- 根据业务规则判断保留或删除
4. **特征提取**：
- 提取年、月、日、星期、季节
- 计算移动平均值（7日、30日）
- 构造同比、环比增长率

### 2.3 数据分析模块 (Data Analysis Module)

#### 2.3.1 功能说明

- 描述性统计分析
- 时间序列分析
- 空间分布分析
- 相关性分析

#### 2.3.2 核心组件

```
analysis/
├── descriptive_stats.py # 描述性统计
├── time_series.py # 时间序列分析
├── spatial_analysis.py # 空间分析
├── correlation.py # 相关性分析
└── visualization.py # 静态图表生成
```

#### 2.3.3 分析内容

1. **描述性统计**
- 各污染物浓度的均值、中位数、标准差
- 空气质量等级分布
- 城市排名统计

2. **时间序列分析**
- 年度、季度、月度趋势分析
- 周期性特征识别
- 节假日影响分析

3. **空间分布分析**
- 城市间AQI对比
- 区域污染特征
- 地理可视化

4. **相关性分析**
- PM2.5与AQI的相关性
- 各污染物之间的相关性
- 气象因素与空气质量的关系

### 2.4 预测模型模块 (Prediction Module)

#### 2.4.1 功能说明

- 基于历史数据预测未来空气质量
- 支持多种机器学习算法
- 模型评估与对比

#### 2.4.2 核心组件

```
prediction/
├── models/
│ ├── linear_regression.py # 线性回归
│ ├── ridge_regression.py # 岭回归
│ ├── random_forest.py # 随机森林（可选）
│ └── lstm_model.py # LSTM模型（可选）
├── train.py # 模型训练
├── predict.py # 预测接口
├── evaluate.py # 模型评估
└── model_persistence.py # 模型持久化
```

#### 2.4.3 线性回归模型设计

**特征变量 (X)**：

- 历史AQI值（前1天、前3天、前7天平均）
- 各污染物浓度（PM2.5, PM10, SO2, NO2, CO, O3）
- 时间特征（月份、星期、季节）
- 气象数据（温度、湿度、风速等，如有）

**目标变量 (y)**：

- 未来1天的AQI值
- 未来7天的AQI值

**模型流程**：

```python
# 伪代码示例
1. 数据准备：特征工程、数据分割（80%训练，20%测试）
2. 特征标准化：StandardScaler
3. 模型训练：LinearRegression
4. 模型评估：R²、RMSE、MAE
5. 模型保存：pickle
```

#### 2.4.4 评估指标

- **R² (决定系数)**：0.7以上为良好
- **RMSE (均方根误差)**：越小越好
- **MAE (平均绝对误差)**：越小越好
- **MAPE (平均绝对百分比误差)**：小于15%为优秀

### 2.5 Web可视化模块 (Web Visualization Module)

#### 2.5.1 功能说明

- Flask后端API服务
- ECharts前端交互式可视化
- 数据大屏展示

#### 2.5.2 核心组件

```
web/
├── app.py # Flask应用主入口
├── routes/
│ ├── index.py # 首页路由
│ ├── analysis.py # 数据分析页面路由
│ ├── prediction.py # 预测页面路由
│ └── api.py # 数据API路由
├── templates/
│ ├── base.html # 基础模板
│ ├── index.html # 首页
│ ├── analysis.html # 分析页面
│ ├── prediction.html # 预测页面
│ └── dashboard.html # 数据大屏
├── static/
│ ├── css/ # 样式文件
│ ├── js/ # JavaScript文件
│ │ ├── echarts.min.js
│ │ ├── charts.js # 图表配置
│ │ └── api.js # API调用
│ └── img/ # 图片资源
└── utils/
└── response.py # 统一响应格式
```

#### 2.5.3 页面设计

**1. 首页 (index.html)**

- 系统简介
- 数据概览（总数据量、城市数、时间跨度）
- 导航入口

**2. 数据分析页面 (analysis.html)**

- 城市选择器
- 时间范围选择器
- 多种图表展示：
- 折线图：AQI时间趋势
- 柱状图：污染物浓度对比
- 饼图：空气质量等级分布
- 热力图：相关性矩阵
- 日历热力图：全年AQI分布

**3. 预测页面 (prediction.html)**

- 城市选择
- 预测天数设置
- 预测结果展示
- 历史预测准确率
- 模型性能指标

**4. 数据大屏 (dashboard.html)**

- 实时数据概览
- 多城市对比
- 污染物浓度雷达图
- 全国空气质量地图
- 预警信息

#### 2.5.4 API接口设计

| 接口路径 | 方法 | 功能 | 参数 |
| ------------------ | ---- | ---------------- | -------------------------- |
| /api/cities | GET | 获取城市列表 | - |
| /api/aqi/history | GET | 获取历史AQI数据 | city, start_date, end_date |
| /api/aqi/stats | GET | 获取统计数据 | city, year |
| /api/correlation | GET | 获取相关性数据 | city |
| /api/predict | POST | 执行预测 | city, days |
| /api/model/metrics | GET | 获取模型评估指标 | model_name |

### 2.6 系统管理模块 (System Management Module)

#### 2.6.1 功能说明

- 爬虫任务调度
- 数据更新管理
- 日志记录

#### 2.6.2 核心组件

```
management/
├── scheduler.py # 定时任务调度
├── data_updater.py # 数据更新
└── logger.py # 日志管理
```

---

## 三、数据库设计

### 3.1 文件存储结构

```
data/
├── raw/ # 原始数据
│ ├── aqi_raw_2022.csv
│ ├── aqi_raw_2023.csv
│ └── aqi_raw_2024.csv
├── processed/ # 清洗后数据
│ └── aqi_cleaned.csv
├── features/ # 特征数据
│ └── aqi_features.csv
└── models/ # 模型文件
├── linear_regression.pkl
└── model_metrics.json
```

### 3.2 数据表结构设计

#### AQI数据表 (aqi_data)

| 字段名 | 数据类型 | 说明 | 示例 |
| ------------- | ----------- | ------------ | ---------- |
| id | INT | 主键 | 1 |
| city | VARCHAR(50) | 城市名称 | 北京 |
| date | DATE | 日期 | 2022-01-01 |
| aqi | INT | 空气质量指数 | 85 |
| quality_level | VARCHAR(20) | 质量等级 | 良 |
| pm25 | FLOAT | PM2.5浓度 | 63 |
| pm10 | FLOAT | PM10浓度 | 92 |
| so2 | FLOAT | SO2浓度 | 8 |
| no2 | FLOAT | NO2浓度 | 45 |
| co | FLOAT | CO浓度 | 0.8 |
| o3 | FLOAT | O3浓度 | 56 |

---

## 四、论文大纲设计

### 完整论文大纲

```
基于Python的空气质量数据分析预测及可视化

摘要
Abstract

第1章绪论
1.1 研究背景与意义
1.1.1 研究背景
- 环境污染现状
- 空气质量监测的重要性
- 大数据技术在环境监测中的应用
1.1.2 研究意义
- 理论意义：数据驱动的环境分析方法
- 实践意义：为政策制定和公众健康提供参考

1.2 国内外研究现状
1.2.1 国外研究现状
- 空气质量预测模型研究
- 数据可视化技术应用
1.2.2 国内研究现状
- 国内空气质量监测体系
- 基于机器学习的预测研究

1.3 研究目的与方法
1.3.1 研究目的
- 构建空气质量数据采集系统
- 分析空气质量时空分布特征
- 建立预测模型
- 开发可视化展示平台
1.3.2 研究方法
- 网络爬虫技术
- 统计分析方法
- 机器学习方法
- Web可视化技术

1.4 论文结构安排

第2章数据分析理论与技术基础
2.1 数据分析基础理论
2.1.1 统计学基础理论
- 描述性统计
- 相关性分析
- 时间序列分析
2.1.2 机器学习相关理论
- 监督学习原理
- 线性回归理论
- 模型评估方法

2.2 数据采集技术
- 网络爬虫原理
- Python爬虫库（Requests、BeautifulSoup）
- 反爬虫策略与应对

2.3 数据处理技术
- Pandas数据处理
- 数据清洗方法
- 特征工程技术

2.4 数据分析技术
- Numpy数值计算
- Scipy科学计算
- 统计分析方法

2.5 数据可视化技术
- Matplotlib静态可视化
- ECharts交互式可视化
- Flask Web框架

第3章空气质量数据爬取与预处理
3.1 空气质量数据爬取
3.1.1 目标网站分析
- 网站结构分析（aqistudy.cn）
- HTML标签结构
- 数据加载机制
- 反爬策略识别

3.1.2 爬虫设计与实现
- 技术选型：Requests + BeautifulSoup
- 多城市爬取策略
- 请求头与Cookie设置
- 翻页逻辑实现
- 频率控制与延时策略
- 异常处理机制

3.1.3 数据存储
- CSV文件存储方案
- 字段映射规则
- 编码处理（UTF-8）
- 文件组织结构

3.1.4 数据集介绍
- 数据来源：空气质量历史数据网站
- 时间范围：2022年1月 - 2024年12月
- 城市数量：150+ 个城市
- 样本数量：100,000+ 条记录
- 字段说明：日期、城市、AQI、PM2.5、PM10、SO2、NO2、CO、O3
- 数据质量评估

3.2 数据清洗
3.2.1 重复值检测及处理
- 使用Pandas .duplicated()方法
- 按日期+城市去重
- 重复记录统计：删除XX条

3.2.2 缺失值检测及处理
- 缺失值统计分析
- 缺失率小于5%：删除记录
- 缺失率5%-20%：线性插值填充
- 缺失率大于20%：均值填充
- 处理结果统计

3.2.3 异常值检测及处理
- 箱线图异常值识别
- 3σ原则判断
- IQR方法应用
- 异常值判定规则（如AQI<0或>500）
- 处理策略：删除明显错误，保留极端天气

3.3 数据预处理
3.3.1 时间格式处理
- 统一日期格式：YYYY-MM-DD
- 提取年、月、日、星期
- 构造季节变量（春夏秋冬）
- 节假日标记

3.3.2 数据单位统一处理
- PM2.5、PM10单位统一：μg/m³
- CO单位转换：mg/m³
- 标准化处理

3.3.3 数据类型转换处理
- 日期字符串转datetime类型
- 污染物浓度转float类型
- 质量等级转category类型
- AQI转int类型

3.3.4 特征工程
- 构造滞后特征（前1天、前3天、前7天AQI）
- 计算移动平均值（7日MA、30日MA）
- 同比/环比增长率
- 污染物浓度比值

3.4 数据存储
- 清洗后数据存储格式
- 文件命名规范：aqi_cleaned_YYYYMMDD.csv
- 数据版本管理
- 数据备份策略

第4章空气质量数据分析与展现
4.1 描述性统计分析
- 各污染物浓度统计（均值、中位数、标准差）
- AQI分布统计
- 空气质量等级分布
- 统计摘要表

4.2 相关性分析与展现
- Pearson相关系数矩阵
- PM2.5与AQI的相关性（r>0.9）
- 各污染物间相关性
- 热力图可视化

4.3 时间序列分析与展现
4.3.1 AQI时间趋势分析
- 年度AQI变化趋势
- 季节性特征分析
- 月度波动规律
4.3.2 数据展现
- 折线图：AQI时间序列
- 柱状图：月度平均AQI对比
- 日历热力图：全年AQI分布

4.4 空间分布分析与展现
4.4.1 城市空气质量分析
- 城市AQI排名
- 区域污染特征
- 重点城市对比
4.4.2 数据展现
- 柱状图：TOP20城市AQI排名
- 地图可视化：全国空气质量分布
- 散点图：经纬度与AQI关系

4.5 污染物浓度分析与展现
4.5.1 污染物浓度分析
- 主要污染物识别
- PM2.5超标天数统计
- 污染物季节性变化
4.5.2 数据展现
- 雷达图：污染物浓度对比
- 堆叠柱状图：污染物构成
- 饼图：首要污染物分布

4.6 数据可视化大屏
- 整体布局设计
- 模块划分：数据概览、趋势分析、城市对比、预警信息
- 交互功能：城市切换、时间筛选、图表联动
- 技术实现：Flask + ECharts + Bootstrap

第5章空气质量数据挖掘与展现
5.1 AQI预测分析
5.1.1 数据探索
- 目标变量（AQI）分布检查
- 时序趋势观察
- 季节性与周期性识别
- 特征与目标变量关系

5.1.2 数据预处理
- 特征选择：选择PM2.5、PM10、历史AQI等
- 特征工程：构造滞后特征、移动平均
- 数据分割：80%训练集，20%测试集
- 特征标准化：StandardScaler

5.1.3 分析与建模
- 线性回归模型构建
* 模型原理：y = β₀ + β₁x₁ + β₂x₂ + ... + ε
* 特征变量：PM2.5、PM10、SO2、NO2、CO、O3、历史AQI
* 模型训练：使用Scikit-learn LinearRegression
* 参数优化：交叉验证
- 岭回归模型（Ridge）
* 正则化参数α选择
* 防止过拟合
- 模型对比分析

5.1.4 模型评价
- R²（决定系数）：0.82
- RMSE（均方根误差）：12.5
- MAE（平均绝对误差）：9.8
- MAPE（平均绝对百分比误差）：11.2%
- 残差分析
- 预测结果可视化
- 模型优劣对比表

5.2 城市空气质量聚类分析
5.2.1 数据探索
- 观察城市特征分布
- 判断是否适合聚类
- 相关性分析排除冗余变量

5.2.2 数据预处理
- 特征变量选择：年均AQI、PM2.5均值、污染天数比例
- 标准化处理：StandardScaler
- 降维处理：PCA（可选）

5.2.3 分析与建模
- K-means聚类算法
* 肘部法则确定最佳K值
* 轮廓系数评估
* K=4聚类结果
- 聚类结果解释
* 第1类：优秀城市（年均AQI<50）
* 第2类：良好城市（50≤AQI<100）
* 第3类：轻度污染城市（100≤AQI<150）
* 第4类：重度污染城市（AQI≥150）

5.2.4 模型评价
- 轮廓系数：0.65
- Calinski-Harabasz指数：2850
- Davies-Bouldin指数：0.72
- 聚类结果可视化（散点图、雷达图）
- 各类别城市特征分析

第6章结果与讨论
6.1 数据分析结果讨论与分析
- 空气质量总体呈改善趋势
- 冬季污染较严重，夏季相对较好
- PM2.5是首要污染物，占比超过60%
- 北方城市污染普遍重于南方
- 节假日期间空气质量有所改善
- 预测模型R²达0.82，具有较好预测能力
- 聚类分析识别出4类城市特征
- 对比已有研究，结果具有一致性

6.2 分析结果的实践意义
- 政府层面：
* 为大气污染防治政策制定提供数据支持
* 识别重点治理城市和时段
* 评估治理措施效果
- 企业层面：
* 户外活动企业可据此调整运营策略
* 空气净化器企业可预测市场需求
- 公众层面：
* 提前了解空气质量，合理安排出行
* 增强环保意识
* 关注自身健康
- 学术层面：
* 为后续研究提供数据和方法参考
* 探索数据驱动的环境分析范式

结论
（1）研究结论总结
- 成功构建了完整的空气质量数据采集、分析、预测和可视化系统
- 爬取了150+城市、100,000+条历史空气质量数据
- 发现空气质量具有明显的时空分布特征
- 线性回归模型预测准确率达到R²=0.82
- K-means聚类识别出4类城市特征
- Web可视化平台实现了数据的交互式展示

（2）研究的局限性
- 数据样本仅覆盖2022-2024年，时间跨度有限
- 未考虑气象因素（温度、湿度、风速）的影响
- 线性回归模型对非线性关系拟合能力不足
- 未实现实时数据采集与预测
- Web系统功能相对简单，缺少用户管理等功能

（3）未来研究方向
- 引入气象数据作为特征变量，提升预测精度
- 尝试LSTM、XGBoost等深度学习和集成学习模型
- 扩展至实时数据采集与预测
- 增加预警功能和推送服务
- 优化Web界面，提升用户体验
- 考虑社会经济因素对空气质量的影响

参考文献
[1] 张三. 基于机器学习的空气质量预测研究[J]. 环境科学, 2023.
[2] Li, J. Air Quality Prediction Using Deep Learning[J]. Environmental Science, 2022.
[3] 王五. Python数据分析与可视化[M]. 北京: 清华大学出版社, 2023.
[4] Scikit-learn官方文档. https://scikit-learn.org/
[5] Flask官方文档. https://flask.palletsprojects.com/
[6] ECharts官方文档. https://echarts.apache.org/

致谢

附录
附录A：主要代码清单
附录B：数据样本
附录C：图表汇总
```

---

## 五、系统实现技术细节

### 5.1 项目目录结构

```
air_quality_project/
│
├── crawler/ # 数据采集模块
│ ├── __init__.py
│ ├── aqi_crawler.py # AQI爬虫
│ ├── weather_crawler.py # 天气爬虫
│ ├── city.json # 城市配置
│ └── config.py # 爬虫配置
│
├── data/ # 数据存储
│ ├── raw/ # 原始数据
│ ├── processed/ # 清洗后数据
│ ├── features/ # 特征数据
│ └── models/ # 模型文件
│
├── data_processing/ # 数据处理模块
│ ├── __init__.py
│ ├── cleaner.py # 数据清洗
│ ├── transformer.py # 数据转换
│ ├── feature_engineer.py # 特征工程
│ └── validator.py # 数据验证
│
├── analysis/ # 数据分析模块
│ ├── __init__.py
│ ├── descriptive_stats.py # 描述性统计
│ ├── time_series.py # 时间序列分析
│ ├── spatial_analysis.py # 空间分析
│ ├── correlation.py # 相关性分析
│ └── visualization.py # 静态图表
│
├── prediction/ # 预测模块
│ ├── __init__.py
│ ├── models/
│ │ ├── __init__.py
│ │ ├── linear_regression.py
│ │ └── ridge_regression.py
│ ├── train.py # 模型训练
│ ├── predict.py # 预测
│ ├── evaluate.py # 评估
│ └── model_persistence.py # 模型持久化
│
├── web/ # Web模块
│ ├── app.py # Flask主应用
│ ├── routes/
│ │ ├── __init__.py
│ │ ├── index.py
│ │ ├── analysis.py
│ │ ├── prediction.py
│ │ └── api.py
│ ├── templates/ # HTML模板
│ │ ├── base.html
│ │ ├── index.html
│ │ ├── analysis.html
│ │ ├── prediction.html
│ │ └── dashboard.html
│ ├── static/ # 静态资源
│ │ ├── css/
│ │ │ └── style.css
│ │ ├── js/
│ │ │ ├── echarts.min.js
│ │ │ ├── charts.js
│ │ │ └── api.js
│ │ └── img/
│ └── utils/
│ ├── __init__.py
│ └── response.py
│
├── management/ # 系统管理模块
│ ├── __init__.py
│ ├── scheduler.py # 任务调度
│ ├── data_updater.py # 数据更新
│ └── logger.py # 日志管理
│
├── tests/ # 测试模块
│ ├── __init__.py
│ ├── test_crawler.py
│ ├── test_processing.py
│ ├── test_analysis.py
│ └── test_prediction.py
│
├── notebooks/ # Jupyter笔记本（用于论文图表生成）
│ ├── 01_data_exploration.ipynb
│ ├── 02_statistical_analysis.ipynb
│ ├── 03_correlation_analysis.ipynb
│ ├── 04_prediction_modeling.ipynb
│ └── 05_clustering_analysis.ipynb
│
├── docs/ # 文档
│ ├── API文档.md
│ ├── 部署指南.md
│ └── 使用手册.md
│
├── config/ # 配置文件
│ ├── config.py # 全局配置
│ └── logging.conf # 日志配置
│
├── requirements.txt # 依赖包
├── README.md # 项目说明
└── run.py # 启动脚本
```

### 5.2 核心依赖包 (requirements.txt)

```txt
# Web框架
Flask==2.3.0
Flask-CORS==4.0.0

# 数据采集
requests==2.31.0
beautifulsoup4==4.12.0
lxml==4.9.0

# 数据处理
pandas==2.0.0
numpy==1.24.0

# 数据分析
scipy==1.10.0
statsmodels==0.14.0

# 机器学习
scikit-learn==1.3.0

# 数据可视化
matplotlib==3.7.0
seaborn==0.12.0

# 任务调度
APScheduler==3.10.0

# 工具
python-dateutil==2.8.0
pytz==2023.3
```

### 5.3 核心代码示例

#### 5.3.1 AQI数据爬虫核心代码

```python
# crawler/aqi_crawler.py
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time

class AQICrawler:
def __init__(self):
self.base_url = 'https://www.aqistudy.cn/historydata/'
self.headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
}

def crawl_city_data(self, city, year, month):
"""爬取指定城市、年月的AQI数据"""
url = f'{self.base_url}daydata.php?city={city}&month={year}{month:02d}'
response = requests.get(url, headers=self.headers)
soup = BeautifulSoup(response.content, 'html.parser')

# 解析数据
data_list = []
table = soup.find('table', class_='table')
rows = table.find_all('tr')[1:] # 跳过表头

for row in rows:
cols = row.find_all('td')
data = {
'日期': cols[0].text.strip(),
'AQI': cols[1].text.strip(),
'质量等级': cols[2].text.strip(),
'PM2.5': cols[3].text.strip(),
'PM10': cols[4].text.strip(),
'SO2': cols[5].text.strip(),
'NO2': cols[6].text.strip(),
'CO': cols[7].text.strip(),
'O3': cols[8].text.strip(),
}
data_list.append(data)

return pd.DataFrame(data_list)

def crawl_multiple_cities(self, cities, start_date, end_date):
"""批量爬取多个城市的数据"""
all_data = []
for city in cities:
print(f'正在爬取 {city} 的数据...')
city_data = self.crawl_city_data(city, start_date, end_date)
city_data['城市'] = city
all_data.append(city_data)
time.sleep(3) # 延时3秒

return pd.concat(all_data, ignore_index=True)
```

#### 5.3.2 数据清洗核心代码

```python
# data_processing/cleaner.py
import pandas as pd
import numpy as np

class DataCleaner:
def __init__(self, df):
self.df = df.copy()

def remove_duplicates(self):
"""去除重复值"""
before = len(self.df)
self.df = self.df.drop_duplicates(subset=['城市', '日期'])
after = len(self.df)
print(f'删除了 {before - after} 条重复记录')
return self

def handle_missing_values(self):
"""处理缺失值"""
for col in self.df.columns:
missing_rate = self.df[col].isnull().sum() / len(self.df)

if missing_rate < 0.05:
# 缺失率小于5%，删除记录
self.df = self.df.dropna(subset=[col])
elif missing_rate < 0.20:
# 缺失率5%-20%，线性插值
self.df[col] = self.df[col].interpolate(method='linear')
else:
# 缺失率大于20%，均值填充
self.df[col] = self.df[col].fillna(self.df[col].mean())

return self

def handle_outliers(self, column, method='iqr'):
"""处理异常值"""
if method == 'iqr':
Q1 = self.df[column].quantile(0.25)
Q3 = self.df[column].quantile(0.75)
IQR = Q3 - Q1
lower = Q1 - 1.5 * IQR
upper = Q3 + 1.5 * IQR

# 删除异常值
before = len(self.df)
self.df = self.df[(self.df[column] >= lower) & (self.df[column] <= upper)]
after = len(self.df)
print(f'{column} 删除了 {before - after} 条异常记录')

return self

def get_cleaned_data(self):
"""获取清洗后的数据"""
return self.df
```

#### 5.3.3 线性回归模型核心代码

```python
# prediction/models/linear_regression.py
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error
import numpy as np
import pickle

class AQIPredictor:
def __init__(self):
self.model = None
self.scaler = StandardScaler()
self.feature_names = None

def prepare_features(self, df):
"""准备特征"""
# 构造滞后特征
df['AQI_lag1'] = df['AQI'].shift(1)
df['AQI_lag3'] = df['AQI'].shift(3).rolling(3).mean()
df['AQI_lag7'] = df['AQI'].shift(7).rolling(7).mean()

# 提取时间特征
df['日期'] = pd.to_datetime(df['日期'])
df['月份'] = df['日期'].dt.month
df['星期'] = df['日期'].dt.dayofweek
df['季节'] = df['月份'].apply(lambda x: (x % 12 + 3) // 3)

# 选择特征
feature_cols = ['PM2.5', 'PM10', 'SO2', 'NO2', 'CO', 'O3',
'AQI_lag1', 'AQI_lag3', 'AQI_lag7',
'月份', '星期', '季节']

X = df[feature_cols].dropna()
y = df.loc[X.index, 'AQI']

self.feature_names = feature_cols
return X, y

def train(self, X, y, model_type='linear'):
"""训练模型"""
# 数据分割
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size=0.2, random_state=42
)

# 特征标准化
X_train_scaled = self.scaler.fit_transform(X_train)
X_test_scaled = self.scaler.transform(X_test)

# 选择模型
if model_type == 'linear':
self.model = LinearRegression()
elif model_type == 'ridge':
self.model = Ridge(alpha=1.0)

# 训练
self.model.fit(X_train_scaled, y_train)

# 评估
y_pred = self.model.predict(X_test_scaled)
metrics = {
'R2': r2_score(y_test, y_pred),
'RMSE': np.sqrt(mean_squared_error(y_test, y_pred)),
'MAE': mean_absolute_error(y_test, y_pred),
'MAPE': np.mean(np.abs((y_test - y_pred) / y_test)) * 100
}

return metrics

def predict(self, X):
"""预测"""
X_scaled = self.scaler.transform(X)
return self.model.predict(X_scaled)

def save_model(self, filepath):
"""保存模型"""
with open(filepath, 'wb') as f:
pickle.dump({'model': self.model, 'scaler': self.scaler}, f)

def load_model(self, filepath):
"""加载模型"""
with open(filepath, 'rb') as f:
data = pickle.load(f)
self.model = data['model']
self.scaler = data['scaler']
```

#### 5.3.4 Flask API核心代码

```python
# web/routes/api.py
from flask import Blueprint, jsonify, request
import pandas as pd
from prediction.models.linear_regression import AQIPredictor

api_bp = Blueprint('api', __name__, url_prefix='/api')

@api_bp.route('/cities', methods=['GET'])
def get_cities():
"""获取城市列表"""
df = pd.read_csv('data/processed/aqi_cleaned.csv')
cities = df['城市'].unique().tolist()
return jsonify({'code': 200, 'data': cities})

@api_bp.route('/aqi/history', methods=['GET'])
def get_aqi_history():
"""获取历史AQI数据"""
city = request.args.get('city')
start_date = request.args.get('start_date')
end_date = request.args.get('end_date')

df = pd.read_csv('data/processed/aqi_cleaned.csv')
df = df[df['城市'] == city]
df = df[(df['日期'] >= start_date) & (df['日期'] <= end_date)]

result = df.to_dict('records')
return jsonify({'code': 200, 'data': result})

@api_bp.route('/predict', methods=['POST'])
def predict_aqi():
"""预测AQI"""
data = request.json
city = data.get('city')
days = data.get('days', 7)

# 加载模型
predictor = AQIPredictor()
predictor.load_model('data/models/linear_regression.pkl')

# 准备数据并预测（这里简化处理）
# 实际应用中需要获取最新数据并构造特征

predictions = [85, 90, 78, 82, 95, 88, 75][:days] # 示例数据

return jsonify({
'code': 200,
'data': {
'city': city,
'predictions': predictions
}
})

@api_bp.route('/correlation', methods=['GET'])
def get_correlation():
"""获取相关性数据"""
city = request.args.get('city')

df = pd.read_csv('data/processed/aqi_cleaned.csv')
df = df[df['城市'] == city]

# 计算相关系数
corr_matrix = df[['AQI', 'PM2.5', 'PM10', 'SO2', 'NO2', 'CO', 'O3']].corr()

return jsonify({
'code': 200,
'data': corr_matrix.to_dict()
})
```

#### 5.3.5 ECharts图表配置示例

```javascript
// web/static/js/charts.js

// AQI时间趋势折线图
function createAQITrendChart(chartId, data) {
var chart = echarts.init(document.getElementById(chartId));

var option = {
title: {
text: 'AQI时间趋势图',
left: 'center'
},
tooltip: {
trigger: 'axis'
},
xAxis: {
type: 'category',
data: data.dates
},
yAxis: {
type: 'value',
name: 'AQI'
},
series: [{
name: 'AQI',
type: 'line',
data: data.aqi_values,
smooth: true,
itemStyle: {
color: '#5470c6'
}
}]
};

chart.setOption(option);
}

// 污染物雷达图
function createPollutantRadarChart(chartId, data) {
var chart = echarts.init(document.getElementById(chartId));

var option = {
title: {
text: '污染物浓度雷达图'
},
radar: {
indicator: [
{ name: 'PM2.5', max: 150 },
{ name: 'PM10', max: 250 },
{ name: 'SO2', max: 50 },
{ name: 'NO2', max: 100 },
{ name: 'CO', max: 5 },
{ name: 'O3', max: 200 }
]
},
series: [{
type: 'radar',
data: [{
value: data.values,
name: data.city
}]
}]
};

chart.setOption(option);
}

// 空气质量等级饼图
function createQualityPieChart(chartId, data) {
var chart = echarts.init(document.getElementById(chartId));

var option = {
title: {
text: '空气质量等级分布',
left: 'center'
},
tooltip: {
trigger: 'item'
},
legend: {
orient: 'vertical',
left: 'left'
},
series: [{
type: 'pie',
radius: '50%',
data: data,
emphasis: {
itemStyle: {
shadowBlur: 10,
shadowOffsetX: 0,
shadowColor: 'rgba(0, 0, 0, 0.5)'
}
}
}]
};

chart.setOption(option);
}
```

---

## 六、项目实施计划

### 6.1 开发阶段划分

| 阶段 | 任务 | 预计时间 | 交付成果 |
| -------- | ---------------- | -------- | ------------------------- |
| 第一阶段 | 数据采集与存储 | 1周 | 爬虫程序、原始数据CSV文件 |
| 第二阶段 | 数据清洗与预处理 | 1周 | 清洗后数据、特征数据 |
| 第三阶段 | 数据分析与可视化 | 2周 | 统计分析报告、静态图表 |
| 第四阶段 | 预测模型构建 | 2周 | 训练好的模型、评估报告 |
| 第五阶段 | Web系统开发 | 2周 | Flask后端、前端页面 |
| 第六阶段 | 系统测试与优化 | 1周 | 测试报告、优化文档 |
| 第七阶段 | 论文撰写 | 2周 | 完整论文 |

### 6.2 关键里程碑

- **第2周末**：完成数据采集，获得10万+条数据
- **第4周末**：完成数据分析，生成论文所需图表
- **第6周末**：完成预测模型，R²达到0.8以上
- **第8周末**：完成Web系统基本功能
- **第9周末**：系统测试完成，准备部署
- **第11周末**：论文初稿完成

---

## 七、预期成果

### 7.1 系统成果

1. ✅ 完整的空气质量数据采集系统（爬虫）
2. ✅ 数据清洗与预处理工具集
3. ✅ 数据分析模块（统计分析、相关性分析等）
4. ✅ AQI预测模型（线性回归，R²≥0.8）
5. ✅ 城市聚类分析模型（K-means）
6. ✅ 基于Flask的Web可视化平台
7. ✅ ECharts交互式数据大屏

### 7.2 论文成果

1. ✅ 完整学术论文（符合大纲要求）
2. ✅ 20+ 张数据分析图表
3. ✅ 详细的技术实现文档
4. ✅ 模型评估报告

### 7.3 技术亮点

1. **数据规模**：150+城市，100,000+条记录，时间跨度3年
2. **模型性能**：预测准确率R²≥0.8，MAPE<15%
3. **可视化**：ECharts交互式图表，数据大屏展示
4. **系统完整性**：覆盖数据采集-分析-预测-展示全流程
5. **技术栈丰富**：Python、Flask、ECharts、机器学习等多种技术

---

## 八、注意事项与建议

### 8.1 数据采集注意事项

- ⚠️ 遵守robots.txt协议，合理设置爬取频率
- ⚠️ 设置合理的延时（3-5秒），避免IP被封
- ⚠️ 定期备份数据，防止数据丢失
- ⚠️ 注意数据版权和使用规范

### 8.2 论文撰写建议

- 📝 图表要清晰美观，添加标题和注释
- 📝 数据分析要有深度，不要只停留在表面
- 📝 模型部分要详细说明原理、参数、评估
- 📝 结论部分要回应研究目的，总结创新点
- 📝 参考文献要规范，至少20篇以上

### 8.3 系统开发建议

- 💡 代码要规范，添加详细注释
- 💡 模块化设计，便于维护和扩展
- 💡 异常处理要完善，提高系统健壮性
- 💡 日志记录要详细，便于调试
- 💡 配置文件单独管理，不要硬编码

### 8.4 答辩准备建议

- 🎯 准备PPT，展示系统架构和核心功能
- 🎯 准备Demo演示，展示可视化效果
- 🎯 熟悉技术细节，能回答相关问题
- 🎯 总结创新点和技术亮点
- 🎯 准备可能的提问和回答

---

## 九、总结