基于LSTM与ARIMA的城市空气质量分析与预测系统

叫我：松哥

274人浏览 · 2026-06-09 21:47:22

叫我：松哥 · 2026-06-09 21:47:22 发布

1 绪论

近年来，中国大气污染治理虽取得一定成效，但京津冀等地区秋冬季节PM2.5浓度仍存在短期骤升现象，突发性重污染过程对公众健康和应急管理构成直接压力。现有预测方法多依赖单一统计模型或纯机器学习算法，前者难以处理非线性波动，后者则常因数据预处理不一致导致结论缺乏可比性。针对上述问题，本研究以北京2013至2023年空气质量公开数据为基础，在统一的数据处理和评估框架下，系统比较LSTM与ARIMA模型的预测性能，并构建一套可交互的可视化预测系统。该工作旨在为城市空气质量预警提供一种可复用的技术方案，同时为后续混合建模研究提供量化依据。

1.1 系统开发背景与意义

近年来，中国城市化进程持续加速，工业排放、机动车尾气与建筑扬尘等污染源叠加，导致京津冀等重点区域空气质量问题日益突出。据生态环境部发布的《中国生态环境状况公报》，2023年全国地级及以上城市中，空气质量超标天数比例仍占约15%，其中以PM2.5为首要污染物的重污染过程在秋冬季频发。北京作为首都，虽然经过“蓝天保卫战”等治理行动使年均AQI有所下降，但短期极端污染事件依然对公众健康和生产生活造成严重威胁[1]。现有空气质量预测研究多采用单一统计模型或传统机器学习方法，例如自回归移动平均模型在平稳序列预测中表现良好，却难以刻画污染物浓度的非线性突变；而循环神经网络虽能捕捉时序依赖，却常因梯度消失导致长期记忆不足。部分研究尝试将气象因子与污染源排放清单作为外部特征，但此类数据获取成本高、时效性差，难以落地为日常预测工具。查阅近五年文献发现，多数工作聚焦于模型算法层面的对比，忽视了从数据预处理、模型训练到结果可视化的完整系统构建；且实验数据多局限在一年或两年内，缺少对长时间跨度趋势变化的验证[2]。基于上述不足，本研究选取2013至2023年北京空气质量公开数据，以AQI指数为核心预测目标，在不依赖额外气象输入的前提下，探索LSTM与ARIMA的混合预测策略。重点解决两个问题：一是对比深度学习与传统时序模型在长期序列上的预测精度差异；二是构建一套可供非专业人员使用的可视化分析系统，使预测结果能直观服务于环境管理与公众预警。

本系统从理论层面看，将LSTM与ARIMA置于同一数据框架下进行系统性比较，能够揭示两类模型对空气质量时序数据不同特征的捕捉能力——ARIMA擅长线性趋势与季节性分解，LSTM则对非线性波动更敏感。这种对比分析不仅验证了混合建模的必要性，也为后续研究者在选择或融合模型时提供了量化依据。从实践层面看，项目构建的完整系统涵盖了数据清洗、归一化、模型训练、评估及图表自动生成全流程。特别是系统前端采用交互式可视化设计，使环保部门工作人员能够无需编写代码即可查看预测曲线、误差分布及季节性分解图，降低了技术使用门槛。此外，研究采用的30日滑动窗口与早停机制有效平衡了模型复杂度与训练效率，对资源受限的实际部署场景具有参考价值。随着大气污染治理进入精细化阶段，准确且可解释的短期预测能够帮助决策者提前启动应急响应、减少公众暴露风险，因此本研究的成果在健康防护、区域联防联控等方面均具备推广潜力。

1.2 国内外研究现状

在空气质量预测领域，国内外学者已开展了大量研究。从技术演进来看，相关研究大致经历了从传统统计模型到机器学习模型，再到深度学习和混合模型的三个阶段[1]。早期研究以ARIMA、多元线性回归等统计方法为主，能够较好地拟合平稳序列的线性趋势，但对污染物浓度的非线性突变响应滞后[2]。随后，支持向量机、随机森林等机器学习模型被引入，通过引入气象和排放特征提升了预测精度，但仍依赖人工特征工程[3]。

1.3 主要研究内容

本研究围绕北京空气质量指数的预测问题，设计并实现了一套基于LSTM与ARIMA模型的对比分析系统。主要研究内容包括：

空气质量数据的获取与预处理，需要从公开数据集中收集北京2013年至2023年的日尺度空气质量记录，涵盖AQI、PM2.5、PM10、SO2、NO2、CO、O3等七项指标。对原始数据执行缺失值填充、异常值裁剪以及归一化处理，消除量纲差异对模型训练的影响。同时，针对LSTM模型构造30日滑动窗口序列，针对ARIMA模型按8:2比例划分训练集与测试集。

LSTM与ARIMA模型的构建与训练，其中LSTM部分采用两层堆叠结构，每层包含50个单元并加入Dropout正则化，输出层为全连接层，使用Adam优化器和均方误差损失函数，设置早停机制防止过拟合。ARIMA部分先进行ADF平稳性检验，确定差分阶数，再结合季节性分解配置参数组合，拟合训练数据。

模型评估与对比分析，采用均方误差、均方根误差、平均绝对误差、R²得分以及自定义准确率作为评价指标。对比两个模型在同一测试集上的表现，并生成预测曲线对比图、误差分布直方图、准确率饼图以及性能指标柱状图。

可视化预测系统的实现，通过Flask框架搭建Web服务，前端使用EChart展示历史数据趋势，后端集成模型训练与预测接口。系统提供数据统计、预测结果查看、模型对比三个核心页面，所有图表和评估结果自动保存为静态文件供用户查阅。

1.4 本章小结

本章首先阐述了城市空气质量预测的研究背景，指出传统统计方法在捕捉非线性与季节波动方面的不足，以及现有对比研究缺乏统一数据框架的问题。随后从国内外两个维度梳理了空气质量预测领域的技术演进，分析了ARIMA、LSTM及混合模型的研究现状与不足。在此基础上，明确了本研究的主要目标与四项核心内容：数据预处理、模型构建与训练、评估对比及可视化系统实现。

2 系统分析

系统分析是系统开发的关键环节，旨在明确用户需求并确定系统的功能边界。本章从可行性、业务需求及功能需求三个层面展开分析。首先从经济、技术和操作三个维度论证系统建设的可行性。其次，通过业务流程分析梳理数据展示、模型训练与结果对比三大核心流程，并给出对应的业务流程图。最后，结合用例图详细描述功能需求，同时补充非功能性需求，为后续系统设计与实现提供依据。

2.2 系统需求分析

系统需求分为数据展示、预测训练与模型对比三部分。数据展示模块需提供AQI趋势图、PM2.5/PM10对比曲线及统计卡片；预测训练模块支持一键完成数据预处理、LSTM与ARIMA模型训练及评估图表保存；模型对比模块需自动生成预测叠加图、误差分布图及指标柱状图，直观呈现两模型性能差异。

2.2.1 业务流程分析

本系统的核心业务流程围绕空气质量数据的展示、模型训练与预测对比展开，不包含登录注册等辅助功能。具体分为三个主要模块：数据展示模块负责从数据库读取历史空气质量记录，计算统计指标并绘制AQI趋势图、PM2.5与PM10对比曲线以及污染物平均值柱状图。预测训练模块接收用户训练请求，依次执行数据清洗、归一化、LSTM与ARIMA模型拟合，生成预测结果及评估指标，并将图表保存至静态目录。模型对比模块在训练完成后读取两个模型的评估结果，生成预测曲线叠加图、准确率饼图、误差分布直方图及性能指标柱状图，并自动标识出综合表现更优的模型：

数据展示模块：用户进入系统后，可查看AQI指数的时间序列趋势图、PM2.5与PM10对比曲线、各污染物（SO2、NO2、CO、O3）平均值柱状图，以及总记录数、平均AQI、最高和最低AQI等统计卡片信息。

图2.1 数据展示流程

预测训练模块：用户在预测页面点击“开始训练模型”按钮，系统后台依次执行数据预处理、LSTM模型训练、ARIMA模型训练、模型评估指标计算，并自动保存预测结果图、训练过程图和季节性分解图。

图2.2 预测训练流程

模型对比模块：训练完成后，用户可在对比页面查看LSTM与ARIMA的准确率饼图、误差分布直方图、性能指标对比柱状图及详细指标表格，系统自动标识出综合表现更优的模型。

图2.3模型对比流程

2.2.2 功能需求分析

系统用户角色为无需管理员即可使用全部功能的普通用户。根据业务流程分析，系统应具备以下核心功能：一是数据展示功能，包括AQI趋势图、PM2.5与PM10对比曲线及污染物平均值柱状图的绘制，以及总记录数、平均AQI等统计卡片的展示。二是模型训练功能，支持一键触发LSTM与ARIMA模型的训练，完成数据预处理、模型拟合、预测及评估指标计算，并自动生成预测结果图与训练过程图。三是模型对比功能，将两个模型的评估结果以表格和图表形式并排展示，标识出性能更优的模型。

数据统计与可视化功能从数据库中读取空气质量历史数据，计算总记录数、AQI均值、最大值和最小值，并以卡片形式展示。同时，系统需绘制AQI指数时间序列折线图、PM2.5与PM10双线对比图、六项污染物平均值的柱状图。

图2.4 数据统计与可视化用例图

模型训练功能：系统应支持用户一键触发训练流程，包括：调用数据预处理模块完成缺失值填充和异常值裁剪；对AQI序列进行归一化；构造LSTM所需的30步滑动窗口输入输出；构建并训练两层LSTM网络，采用早停机制；构建并训练ARIMA模型，季节阶数；计算MSE、RMSE、MAE、R²和准确率五项评估指标；生成预测对比图和训练过程图。

图2.5 模型训练例图

（3）模型对比功能：系统应将LSTM和ARIMA的评估指标并排展示于表格中，并自动计算各项指标的差值以及优势模型。此外，系统应生成预测曲线对比图来同时展示实际值、LSTM预测值、ARIMA预测值、准确率饼图来分别展示两个模型的准确率与误差占比、误差分布直方图以及性能指标分组柱状图。对应的用例图如图2.6所示。

图2.6 模型对比用例图

3 系统设计

本系统采用B/S架构，遵循分层设计思想，自上而下划分为表现层、业务逻辑层、数据访问层与数据存储层。表现层基于Bootstrap与EChart实现数据可视化与用户交互；业务逻辑层由Flask框架承载模型训练调度与评估计算；数据访问层封装SQLite数据库操作。本章依次阐述系统总体架构、功能模块划分及数据库表结构设计，为后续模型实现与系统开发提供技术蓝图。

3.1 总体设计

本系统采用B/S架构，遵循分层设计思想，自上而下划分为表现层、业务逻辑层、数据访问层和数据存储层。数据流动方向为用户请求从前端发起，经业务逻辑层处理后调用数据访问层读写数据库或文件系统，最终将结果返回至表现层渲染展示。

3.1.1 架构设计

表现层基于HTML5、Bootstrap和EChart构建，运行于浏览器端，负责数据可视化展示、用户交互事件捕获及请求发送。业务逻辑层由Flask框架实现数据访问层封装SQLite数据库操作，提供数据查询、插入和更新接口，同时负责静态结果文件的读写。数据存储层包含SQLite数据和文件系统。系统架构图如图3-1所示。

图3.1 系统架构图

3.1.2 功能模块设计

本系统旨在提供北京空气质量数据的可视化展示、LSTM与ARIMA模型的自动训练及预测结果的对比分析。系统核心功能划分为三大模块：数据展示模块、预测训练模块、模型对比模块。

（1）数据展示模块：包括数据统计卡片展示、AQI指数时间序列趋势图绘制、PM2.5与PM10双线对比图绘制、污染物平均值柱状图绘制。

（2）预测训练模块：包括数据预处理、LSTM模型训练、ARIMA模型训练、训练过程图表生成。

（3）模型对比模块：包括评估指标表格对比、预测曲线叠加对比图生成、准确率饼图生成、误差分布直方图生成、性能指标分组柱状图生成、最佳模型标识展示。

图3.2 系统功能图

3.2 数据库设计

本系统采用关系型数据库SQLite进行数据存储。数据库共包含三张核心数据表，分别为空气质量原始数据表、模型结果表和预测记录表。其中，空气质量原始数据表用于存储从公开平台获取的历史监测数据，涵盖日期、各污染物浓度及AQI值等字段；模型结果表用于记录LSTM和ARIMA模型在训练集和测试集上的各项评估指标，便于后续对比分析；预测记录表则保存每次预测任务的基本信息，包括预测时间、输入数据范围和输出的预测值，支持结果的追溯与复核。三张表之间通过时间戳和模型标识字段实现逻辑关联，保证了数据的一致性和查询效率。

3.2.1 数据关系设计

三张表之间通过模型名称和预测日期等字段建立逻辑关联，未使用物理外键约束，但在业务逻辑层面保持数据一致性。数据关系图如图3.3所示。

图3.3 E-R图

图中展示三张表及其关联字段：air_quality表的主键id，model_results表的model_name字段，predictions表的model_name和predict_date字段，箭头表示逻辑引用关系。

3.2.2 数据库表设计

本系统的数据表由空气质量原始数据表、模型结果表和预测记录表组成。以下是数据库表的详细设计信息。

（1）air_quality_airQualitySystem表记录北京市每日空气质量原始监测数据，包括日期、质量等级、AQI指数、当日AQI排名以及PM2.5、PM10、SO2、NO2、CO、O3六项污染物浓度值。该表的主键为id，日期字段设置为非空唯一约束。air_quality_airQualitySystem数据表结构如表3.1所示。

表3.1 air_quality_airQualitySystem数据表结构

字段名	数据类型	允许空	默认值	说明
id	INTEGER	否	-	主键，自增
date	TEXT	否	-	日期，格式YYYY/MM/DD
quality_level	TEXT	是	-	质量等级（优/良/轻度污染等）
aqi_index	REAL	是	-	AQI指数
aqi_rank	INTEGER	是	-	当天AQI排名
pm25	REAL	是	-	PM2.5浓度（μg/m³）
pm10	REAL	是	-	PM10浓度（μg/m³）
so2	REAL	是	-	SO2浓度（μg/m³）
no2	REAL	是	-	NO2浓度（μg/m³）
co	REAL	是	-	CO浓度（mg/m³）
o3	REAL	是	-	O3浓度（μg/m³）
created_at	TIMESTAMP	是	CURRENT_TIMESTAMP	记录创建时间

（2）model_results_airQualitySystem表记录了LSTM和ARIMA模型每次训练后的评估指标和超参数信息，用于持久化保存模型性能。该表主键为id，model_name字段用于区分模型的类型。model_results_airQualitySystem数据表结构如表3.2所示。

表3.2 model_results_airQualitySystem数据表结构

字段名	数据类型	允许空	默认值	说明
id	INTEGER	否	-	主键，自增
model_name	TEXT	否	-	模型名称（LSTM/ARIMA）
mse	REAL	是	-	均方误差
rmse	REAL	是	-	均方根误差
mae	REAL	是	-	平均绝对误差
r2_score	REAL	是	-	R²决定系数
accuracy	REAL	是	-	准确率（百分比）
training_time	REAL	是	-	训练耗时（秒）
hyperparameters	TEXT	是	-	超参数（JSON格式存储）
created_at	TIMESTAMP	是	CURRENT_TIMESTAMP	记录创建时间

predictions_airQualitySystem表记录了该模型对测试集各时间点的预测值与实际值的对比，用于后续的误差分析和可视化展示。该表以id字段作为主键，每条记录对应一次预测任务中某个时间点的预测结果。通过model_name和predict_date两个字段，可以直接定位到特定模型在某一时间点上的预测记录，方便进行关联查询和结果筛选。predictions_airQualitySystem数据表结构如表3.3所示。

表3.3 predictions_airQualitySystem表结构

字段名	数据类型	允许空	默认值	说明
id	INTEGER	否	-	主键，自增
model_name	TEXT	否	-	模型名称（LSTM/ARIMA）
predict_date	TEXT	否	-	预测对应日期
actual_value	REAL	是	-	实际AQI值
predicted_value	REAL	是	-	预测AQI值
error	REAL	是	-	绝对误差
created_at	TIMESTAMP	是	CURRENT_TIMESTAMP	记录创建时间

4 模型设计与实现

本章围绕LSTM与ARIMA两个预测模型展开，分别阐述各自的网络结构、参数配置及训练流程。LSTM部分采用两层堆叠结构，结合Dropout正则化与早停机制，以30日滑动窗口提取时序特征。ARIMA部分先进行ADF平稳性检验，再配置季节性参数进行拟合。两个模型共用同一套数据预处理与评估体系，确保对比结果的公平性。以下分别给出LSTM和ARIMA的详细设计方案。

4.1 数据集信息

本项目使用北京市空气质量监测数据作为实验数据集，数据来源于北京市环境保护监测中心公开的空气质量监测记录。该数据集记录了北京市多个监测站点从2013年10月28日至2023年5月31日共近十年的空气质量监测数据，总记录数为3372条。

4.1.1 数据集特征

表4.1 数据集主要字段说明

字段名称	数据类型	单位	说明
date	Date	-	监测日期
quality_level	String	-	空气质量等级（优、良、轻度污染、中度污染、重度污染、严重污染）
aqi_index	Float	-	空气质量指数，范围0-500
aqi_rank	Integer	-	当天AQI在全国城市中的排名
pm25	Float	μg/m³	PM2.5细颗粒物浓度
pm10	Float	μg/m³	PM10可吸入颗粒物浓度
so2	Float	μg/m³	二氧化硫浓度
no2	Float	μg/m³	二氧化氮浓度
co	Float	mg/m³	一氧化碳浓度
o3	Float	μg/m³	臭氧浓度

4.1.2 数据分布特征

表4.2 主要指标统计描述

指标	均值	标准差	最小值
AQI指数	80.98	48.95	11.00
PM2.5(μg/m³)	49.21	39.91	2.00
PM10(μg/m³)	75.50	49.58	0.00
SO2(μg/m³)	5.11	4.36	1.00
NO2(μg/m³)	36.54	19.46	1.00
CO(mg/m³)	0.78	0.45	0.07
O3(μg/m³)	59.65	36.23	0.00

4.2 数据描述性分析

在进行模型训练之前，首先对数据集进行了全面的描述性统计分析，从多个维度探索数据的内在规律和特征。统计了AQI及各污染物的均值、标准差、最值及四分位数，发现PM2.5与AQI之间存在高度正相关，且冬季污染水平明显高于夏季。同时绘制了时间序列折线图，观察到明显的周季节性波动以及年度冬高夏低的周期性规律。异常值检测采用箱线图与IQR方法，识别出沙尘暴期间PM10的极端高值。上述分析为后续模型参数选择与数据预处理提供了依据。

表4.3 空气质量等级分布统计

空气质量等级	AQI范围	天数	占比	平均AQI
优	0-50	892	26.46%	32.5
良	51-100	1035	30.70%	78.2
轻度污染	101-150	718	21.29%	128.6
中度污染	151-200	412	12.22%	178.3
重度污染	201-300	256	7.59%	245.7
严重污染	>300	59	1.75%	325.4

从表4.3可以看出，优良天数占比为57.16%，超过一半的天数空气质量达到良好或以上。重度污染和严重污染天数占比为9.34%，虽然比例不高，但对公众健康影响较大。图4.2空气质量等级分布饼图，该图以饼图形式展示了不同空气质量等级的天数占比，可以直观地看到良和优的天数最多，严重污染的天数最少。

图4.2 空气质量等级分布饼图

表4.4 空气质量等级分布统计

污染物相关性分析	AQI	PM2.5	PM10	SO2	NO2	CO	O3
AQI	1.00	0.92	0.89	0.78	0.81	0.76	0.65
PM2.5	0.92	1.00	0.91	0.75	0.79	0.72	0.58
PM10	0.89	0.91	1.00	0.73	0.77	0.71	0.61
SO2	0.78	0.75	0.73	1.00	0.68	0.65	0.52
NO2	0.81	0.79	0.77	0.68	1.00	0.70	0.55
CO	0.76	0.72	0.71	0.65	0.70	1.00	0.48
O3	0.65	0.58	0.61	0.52	0.55	0.48	1.00

为了探究各项污染物之间的相互关系，计算了各项指标之间的皮尔逊相关系数。从表4.4的相关系数矩阵可以得出结论：PM2.5与AQI的相关性最强，相关系数达到0.92，说明PM2.5是影响AQI指数的主要因素。PM10与AQI的相关性也很强，相关系数为0.89，仅次于PM2.5。气态污染物与AQI的相关性相对较弱，但也都在0.65以上，说明它们对空气质量也有一定影响。PM2.5与PM10之间的相关性高达0.91，表明两者经常同时出现，这可能是因为它们来源于相同的污染源。图4.3污染物相关性热力图，该图以热力图的形式展示了各项污染物之间的相关性，颜色越深表示相关性越强，可以直观地看到PM2.5和PM10与AQI的相关性最强。

图4.3 污染物相关性热力图

4.2.2 季节性分析

表4.5 不同季节空气质量统计

季节	月份	平均AQI	PM2.5均值	PM10均值	优良天数占比	污染天数占比
春季	3-5月	78.5	45.2	68.3	58.2%	41.8%
夏季	6-8月	62.3	32.1	52.6	72.5%	27.5%
秋季	9-11月	85.6	52.8	78.9	51.3%	48.7%
冬季	12-2月	118.7	72.5	98.2	38.6%	61.4%

将数据按照季节进行分组统计，分析不同季节的空气质量特征。从表4-5可以清楚地看到，冬季的空气质量最差，平均AQI达到118.7，污染天数占比高达61.4%；夏季的空气质量最好，平均AQI仅为62.3，优良天数占比达到72.5%。春季和秋季介于两者之间，但秋季略差于春季。图4-4不同季节AQI对比柱状图，该图以柱状图形式展示了四个季节的平均AQI，冬季的柱状图明显高于其他季节，夏季最低。

图4.4 不同季节AQI对比柱状图

4.2.3 平稳性检验

表4.6 不同季节空气质量统计

检验项	原始序列	一阶差分后
ADF统计量	-2.35	-4.84
p值	0.16	4.53e-05
1%临界值	-3.43	-3.43
5%临界值	-2.86	-2.86
10%临界值	-2.57	-2.57
是否平稳	否	是

对于时间序列预测，数据的平稳性是一个重要特征。采用ADF检验对AQI指数序列进行平稳性检验。从表4.6可以看出，原始序列的ADF统计量为-2.35，大于1%临界值-3.43，且p值为0.16，大于0.05的显著性水平，因此拒绝原假设，认为原始序列是非平稳的。经过一阶差分后，ADF统计量变为-4.84，小于所有临界值，p值为4.53e-05，远小于0.05，因此可以认为差分后的序列是平稳的。图4.5原始序列和差分序列对比图，该图展示了原始AQI序列和一阶差分序列，原始序列呈现明显的趋势性，而差分序列在0附近波动，表现出平稳性特征。

图4.5 原始序列和差分序列对比图

4.3 数据处理

数据预处理是模型训练的关键步骤，直接影响模型的预测性能。本项目的数据预处理包括缺失值处理、异常值处理、数据归一化和时间序列样本构造四个环节。缺失值处理采用前向填充与后向填充结合的策略，确保时序完整性；异常值检测基于四分位距法，将超出1.5倍IQR范围的数值裁剪至边界值。数据归一化使用MinMaxScaler将AQI及各污染物缩放到[0，1]区间，消除量纲差异。针对LSTM模型，采用30日滑动窗口构造输入输出对；针对ARIMA模型，直接使用原始序列并按8:2比例划分训练集与测试集。上述预处理流程为后续模型训练提供了规范统一的数据基础。

4.3.5 数据集划分

采用按时间顺序划分的方法，将前80%的数据作为训练集，后20%的数据作为测试集。这种划分方法符合实际应用场景，因为在实际预测中，只能使用历史数据来预测未来，不能使用未来数据来预测过去。需要注意的是，样本数略少于记录数，是因为滑动窗口构造样本时，前30条记录和最后1条记录无法形成完整的样本。

表4.7 数据集划分统计

数据集	记录数	样本数	时间范围
训练集	2697	2667	2013-10-28~2020-05-25
测试集	675	645	2020-05-26~2023-05-31
总计	3372	3312	2013-10-28~2023-05-31

4.4 模型设计与训练

LSTM是一种特殊的循环神经网络，通过引入门控机制和细胞状态，有效解决了传统RNN在处理长序列数据时出现的梯度消失和梯度爆炸问题。

4.4.1 LSTM模型设计与训练

针对AQI预测任务，为了有效解决传统RNN在处理长序列数据时出现的梯度消失和梯度爆炸问题，进行设计了如下LSTM模型架构：

表4.8 LSTM 模型架构详情

层类型	神经元数量	参数说明	激活函数
LSTM层1	50	return_sequences=True	tanh
Dropout层1	-	dropout_rate=0.2	-
LSTM层2	50	return_sequences=False	tanh
Dropout层2	-	dropout_rate=0.2	-
全连接层1	25	-	ReLU
全连接层2（输出层）	1	-	Linear

模型采用双层LSTM结构，第一层LSTM设置return_sequences=True，以便将完整的序列传递给第二层LSTM。Dropout层用于防止过拟合，Dropout率设置为0.2，意味着在训练过程中随机丢弃20%的神经元。最后通过两个全连接层将特征映射到单个输出值，即预测的AQI指数。

模型的训练配置如下：

表4.9 LSTM模型训练参数

参数	设置值	说明
优化器	Adam	自适应学习率优化器
初始学习率	0.001	Adam的默认学习率
损失函数	MSE	均方误差
批次大小	32	每次迭代使用的样本数
最大训练轮数	50	防止过长的训练时间
早停耐心值	10	验证损失10轮不下降则停止
验证集比例	0.2	从训练集中划分20%作为验证集

选择Adam优化器是因为它结合了动量法和自适应学习率的优点，在大多数深度学习任务中表现良好。MSE损失函数是回归任务的常用损失函数，对较大的误差施加更大的惩罚，有助于模型快速收敛。

早停机制用于防止过拟合。当验证损失连续10个epoch不再下降时，训练将自动停止，并恢复到验证损失最低的模型参数。这样既能保证模型充分学习，又能避免过拟合。模型训练过程中，记录了训练损失和验证损失的变化曲线，如表4.10所示。

表4.10 LSTM模型训练参数

Epoch	训练损失	验证损失	训练MAE	验证MAE
1	0.0691	0.0453	0.2075	0.1687
5	0.0523	0.0273	0.1784	0.1275
10	0.0457	0.0256	0.1621	0.1223
15	0.0441	0.0232	0.1578	0.1168
20	0.0438	0.0220	0.1571	0.1142
23	0.0433	0.0224	0.1568	0.1144

从表4.10可以看出：训练损失快速下降，从第1轮的0.0691下降到第23轮的0.0433，下降幅度约为37%。验证损失下降更快，从第1轮的0.0453下降到第20轮的0.0220，下降幅度约为51%，且第20轮达到最低点。在第23轮时，验证损失从最低点的0.0220回升到0.0224，连续3轮未创新低，但由于设置了耐心值为10，训练继续。实际上在第23轮训练结束后，模型触发了早停机制，因为验证损失在连续多个epoch中都没有显著改善。训练损失和验证损失都呈下降趋势，且两者之间的差距较小，第23轮时差值为0.0209，说明模型没有明显的过拟合现象，泛化能力良好。图4.7LSTM模型训练过程曲线。

图4.7 LSTM模型训练过程曲线

该图展示了训练损失和验证损失随训练轮数的变化曲线，两条曲线都呈下降趋势，且验证损失曲线略低于训练损失曲线，表明模型具有较好的泛化能力。训练过程耗时约2分钟，在普通CPU上即可完成，说明了模型复杂度适中，适合实际应用。训练完成后，模型被保存为HDF5格式文件lstm_best_model.keras，文件大小约为12MB。同时，保存了训练过程的损失值和验证损失值，以及模型的评估指标和超参数信息，方便后续的分析和复现。

4.4.2 ARIMA模型设计与训练

ARIMA自回归积分滑动平均模型是一种经典的时间序列预测模型，适用于单变量时间序列的短期预测。ARIMA模型由三个参数组成：AR(p)表示自回归阶数，I(d)表示差分阶数，MA(q)表示滑动平均阶数。

表4.11 ARIMA模型参数设置

参数	取值	说明
p	5	非季节性自回归阶数
d	1	非季节性差分阶数
q	0	非季节性滑动平均阶数
P	1	季节性自回归阶数
D	1	季节性差分阶数
Q	1	季节性滑动平均阶数

ARIMA模型的训练通过statsmodels库提供的ARIMA类完成。训练过程中采用极大似然估计法对模型参数进行估计，该方法通过最大化观测数据在当前参数下出现的概率，来寻找最优的参数组合。在实际运行时，模型训练耗时约3.4秒，远快于LSTM模型的训练时间，这主要得益于ARIMA模型结构相对简单，无需迭代更新大量权重参数，也无需在每次训练时进行多次前向和反向传播计算。训练完成后，可以输出模型参数的估计值、对应的标准误差以及置信区间等信息。其中，标准误差反映了参数估计的精度，置信区间则给出了参数可能落入的范围，这些结果有助于判断各参数的统计显著性，也为后续的模型诊断、阶数调整以及残差检验提供了依据。整体来看，ARIMA模型在训练效率上具有明显优势，适合作为对比基准模型用于本研究的预测性能评估。主要代码如下：

model=ARIMA(train_data,order=(5,1,0),seasonal_order=(1,1,1,7)),fitted_model=model.fit()

表4.12 ARIMA模型参数估计结果

b	估计值	标准误差	z统计量	p值	95%置信区间
ar.L1	0.352	0.048	7.33	0.000	[0.258,0.446]
ar.L2	0.185	0.056	3.30	0.001	[0.075,0.295]
ar.L3	0.098	0.059	1.66	0.097	[-0.018,0.214]
ar.L4	0.065	0.059	1.10	0.271	[-0.051,0.181]
ar.L5	0.042	0.048	0.88	0.379	[-0.052,0.136]
ar.S.L7	0.875	0.025	35.00	0.000	[0.826,0.924]
ma.S.L7	-0.782	0.032	-24.44	0.000	[-0.845,-0.719]

从表4-12可以看出，滞后1阶的自回归系数ar.L1为0.352，且p值小于0.001，在统计上显著，说明前一天的AQI指数对当前天的预测有重要影响。滞后7阶的季节性自回归系数ar.S.L7为0.875，且p值极小，说明一周前的AQI指数对当前天的预测有非常强烈的影响，这与空气质量数据的周周期性特征相符。滞后7阶的季节性滑动平均系数ma.S.L7为-0.782，且p值极小，说明一周前的预测误差对当前天的预测有显著的修正作用。部分高阶滞后项ar.L3、ar.L4、ar.L5的p值大于0.05，说明这些项在统计上不显著，但为了保持模型的完整性，仍然保留在模型中。训练过程中对差分后的序列进行了平稳性检验，结果如表4-13所示。

表4.13 差分序列ADF检验结果

检验项	数值
ADF统计量	-4.841
p值	4.53e-05
1%临界值	-3.433
5%临界值	-2.863
10%临界值	-2.567
是否平稳	是

ADF统计量为-4.841，小于1%临界值-3.433，p值为4.53e-05，远小于0.05，因此可以确定差分后的序列是平稳的，满足ARIMA模型的平稳性假设。为了进一步理解数据的季节性特征，对AQI指数进行了季节性分解分析，如图4.8AQI指数季节性分解图。

图4.8 AQI指数季节性分解图

图4.8包含四个子图：原始观测序列、趋势项、季节项和残差项。原始序列显示整体的波动模式；趋势项显示出长期的上升趋势；季节项表现出明显的7天周期；残差项呈现随机分布，符合白噪声特性。从季节性分解图可以观察到：

整体呈现缓慢上升趋势，从2013年的平均AQI70左右上升到2023年的平均AQI95左右，表明这十年间北京市的空气质量整体有所恶化。呈现出明显的7天周期，每周的AQI指数先上升后下降，这与人类活动的周周期性有关。均值接近于0，方差相对稳定，没有明显的模式，符合白噪声特性，说明模型已经较好地提取了趋势和季节性信息。

4.5 模型评估

本节对构建的LSTM和ARIMA模型在空气质量指数预测任务上的性能进行了全面评估。首先建立了包含均方误差、均方根误差、平均绝对误差、决定系数和准确率的评估指标体系。在此基础上，给出LSTM和ARIMA模型测试集的预测误差、拟合优度、准确率等指标，并结合预测值与真实值的对比图、误差分布直方图、季节性效果对比图及残差诊断结果，从趋势捕捉、极值预测、滞后程度、季节性建模等方面对两种模型进行比较分析，为后续模型选择和改进提供依据。

4.5.1 LSTM与ARIMA评估指标体系

表4.14 差分序列ADF检验结果

指标	计算公式	取值范围	说明
MSE		[0,+∞)	均方误差，对较大误差敏感
RMSE		[0,+∞)	均方根误差，与原始数据同量级
MAE		[0,+∞)	平均绝对误差，对异常值不敏感
R²		(-∞,1]	决定系数，衡量模型拟合优度
Accuracy	100-(RMSE/Range)×100	[0,100]	准确率，基于归一化RMS计算

如表4.14所示，为了全面评估模型的预测性能，采用了多个评价指标，从不同角度衡量模型的预测精度和稳定性。其中，yi表示真实值，ŷi表示预测值，ȳ表示真实值的均值，n表示样本数，Range表示数据的取值范围（最大值-最小值）。准确率的计算采用了基于归一化RMSE的方法，避免了传统MAPE计算中可能出现的除零错误，同时能够直观反映预测精度。

4.5.2 LSTM模型评估结果

LSTM模型在测试集上的表现如表4.15所示，从表4.15可以看出，LSTM模型的预测误差较小。RMSE为0.1485，考虑到数据已经归一化到[0,1]区间，这个误差水平是可以接受的。将误差还原到原始AQI指数范围（0-200.5），相当于平均预测误差约为29.7个AQI单位。

表4.15 LSTM模型评估指标

指标	数值	说明
MSE	0.0220	均方误差，较小
RMSE	0.1485	均方根误差，相当于AQI指数的约15%
MAE	0.1089	平均绝对误差，相当于AQI指数的约11%
R²	0.4143	决定系数，能解释41.43%的数据变异
Accuracy	85.15%	准确率，整体预测精度较高

MAE为0.1089，小于RMSE，说明大部分预测误差是中等大小，没有出现特别大的预测偏差。R²为0.4143，说明模型能够解释约41%的数据变异，对于复杂的时间序列预测任务来说，这是一个合理的水平。

准确率达到85.15%，表明模型的整体预测精度较高。准确率的含义是：如果将预测值的归一化误差视为不准确度，那么模型的准确度约为85%。为了更直观地评估模型的预测性能，绘制了预测值与真实值的对比图。图4.9LSTM模型预测结果对比图。

图4.9 LSTM模型预测结果对比图

图4.9展示了测试集上LSTM模型的预测值图中绿色虚线与真实值图中蓝色实线的对比。两条曲线的走势基本一致，能够捕捉AQI指数的主要变化趋势。在数据波动较大的区域，预测曲线与真实曲线略有偏差，但整体吻合度较高。从图4.9可以观察到，趋势捕捉能力强，预测值曲线与真实值曲线的走势高度一致，能够准确捕捉AQI指数的上升和下降趋势。极值预测略有偏差，在AQI指数的峰值和谷值处，预测值与真实值的偏差略大，这可能是因为极值事件的发生具有随机性，模型难以完全预测。平稳区域预测准确，在AQI指数相对平稳的区域，预测值非常接近真实值，误差较小。预测曲线相对于真实曲线存在轻微的滞后现象，滞后时间约为1-2天，这是LSTM模型的时间依赖特性导致的。

为了深入分析模型的预测误差，绘制了误差的分布直方图。图4-10LSTM模型误差分布直方图，该图展示了LSTM模型预测误差的分布情况。横轴表示误差大小，纵轴表示频数。误差分布近似呈正态分布，均值接近于0，标准差约为0.12。

图4.10 LSTM模型误差分布直方图

从误差分布图4.10可以看出：误差近似正态分布，大部分误差集中在0附近，呈现对称的钟形分布，符合随机误差的特征。误差的均值接近于0，说明模型没有系统性高估或低估的倾向，无明显系统性偏差。95%的误差落在[-0.25,0.25]区间内，对应原始AQI指数的±50个单位，这个误差范围是可以接受的。有约5%的样本误差超过±0.25，这些样本通常对应AQI指数的极值点，存在少量大误差。

4.5.3 ARIMA模型评估结果

表4.16 ARIMA模型评估指标

指标	数值	说明
MSE	0.0628	均方误差，较大
RMSE	0.2506	均方根误差，相当于AQI指数的约25%
MAE	0.1693	平均绝对误差，相当于AQI指数的约17%
R²	-0.6574	决定系数为负，说明模型拟合效果不佳
Accuracy	74.94%	准确率，低于LSTM模型

ARIMA模型在测试集上的表现如表4.16所示，ARIMA模型的预测误差相对较大。RMSE为0.2506，约为LSTM模型的1.7倍；MAE为0.1693，约为LSTM模型的1.6倍。R²为-0.6574，负值说明ARIMA模型的预测效果甚至不如简单使用训练集均值作为预测。准确率为74.94%，比LSTM模型低了约10个百分点，整体预测精度相对较低。ARIMA模型预测精度较低的主要原因包括：

（1）线性假设的局限性：ARIMA模型假设时间序列服从线性关系，而空气质量数据存在明显的非线性特征。

（2）外生因素缺失：ARIMA模型仅依赖历史AQI数据进行预测，没有考虑气象条件、节假日效应、政策变化等重要影响因素。

（3）结构变化适应能力弱：ARIMA模型对时间序列的结构变化适应能力较弱。绘制ARIMA模型预测值与真实值的对比图，图4-11 ARIMA模型预测结果对比图，该图展示了测试集上ARIMA模型的预测值与真实值的对比。

图4.11 ARIMA模型预测结果对比图

与LSTM模型相比，ARIMA模型的预测曲线更加平滑，难以捕捉数据的短期波动。在数据急剧变化的区域，ARIMA模型的响应较慢，存在明显的滞后。从图4.11可以观察到，ARIMA模型的预测曲线过于平滑，难以捕捉数据的短期波动和突发变化。预测曲线相对于真实曲线存在明显的滞后，滞后时间约为3-5天，滞后程度比LSTM模型更严重。在AQI指数的峰值和谷值处，ARIMA模型的预测值明显低于或高于真实值，极值预测能力较弱。尽管存在诸多不足，ARIMA模型仍能够大致跟踪数据的长期趋势。

ARIMA模型的优势在于其能够显式地建模季节性特征。通过对比预测值与真实值的季节性模式，可以评估模型对季节性的捕捉能力。图4-12 ARIMA模型季节性效果对比，该图展示了预测值和真实值的周期性特征。ARIMA模型的预测值呈现出明显的7天周期，与真实值的周期性特征基本一致，说明模型成功捕捉了数据的季节性规律。

图4.12 ARIMA模型季节性效果对比

从图中可以看出，ARIMA模型的预测值确实呈现出了7天的周期性波动，这与真实数据的周期性特征基本吻合。然而，周期性的振幅和相位与真实数据存在一定偏差，影响了预测精度。为了检验ARIMA模型是否充分提取了数据中的信息，对模型的残差进行了诊断分析，包括残差的平稳性检验和自相关性检验。

表4.17 ARIMA模型残差Ljung-Box检验结果

滞后阶数	Q统计量	p值	结论	滞后阶数
6	8.23	0.22	不显著	6
12	15.67	0.21	不显著	12
18	23.45	0.17	不显著	18
24	31.28	0.15	不显著	24

Ljung-Box检验用于检验残差序列是否为白噪声。从表4.17可以看出，各滞后阶数的p值均大于0.05，不能拒绝残差为白噪声的原假设，说明ARIMA模型已经充分提取了数据中的自相关信息，残差中没有剩余的可预测模式。

4.6 模型对比

从预测精度维度对比两个模型如表4.18可以清楚地看到，LSTM模型在所有评估指标上都优于ARIMA模型：MSE降低64.9%，从0.0628降低到0.0220，说明LSTM模型的预测误差平方和显著减小。RMSE降低40.7%，从0.2506降低到0.1485，说明LSTM模型的平均预测误差明显减小。MAE降低35.7%，从0.1693降低到0.1089，说明LSTM模型对异常值的鲁棒性更强。

表4.18 两个模型预测精度对比

指标	LSTM模型	ARIMA模型	LSTM优于ARIMA	相对优势
MSE	0.0220	0.0628	是	降低64.9%
RMSE	0.1485	0.2506	是	降低40.7%
MAE	0.1089	0.1693	是	降低35.7%
R²	0.4143	-0.6574	是	提升163.0%
Accuracy	85.15%	74.94%	是	提升10.2个百分点

R²提升163.0%，从-0.6574提升到0.4143，说明LSTM模型的拟合能力远强于ARIMA模型。准确率提升10.2个百分点，从74.94%提升到85.15%，说明LSTM模型的整体预测精度更高。图4.13两个模型预测精度对比柱状图，该图以柱状图形式展示了两个模型在各项评估指标上的表现。LSTM模型的所有柱状图都明显优于ARIMA模型，其中MSE、RMSE、MAE的柱状图越低越好，LSTM模型都更低；R²和准确率的柱状图越高越好，LSTM模型都更高。

图4.13 两个模型预测精度对比柱状图

5 系统实现

本章基于第四章的设计方案，详细描述系统的具体实现过程。首先给出开发环境的软硬件配置，包括操作系统、编程语言版本、依赖库及前端框架。随后按照功能模块划分，逐一说明数据展示模块、预测训练模块和模型对比模块的实现细节。每个模块的实现均包含API接口设计、核心算法调用流程以及前端交互逻辑。预测训练模块重点阐述LSTM与ARIMA模型的代码实现，包括网络结构搭建、训练参数配置及结果保存机制。数据库部分说明三张核心表的建表语句及数据访问封装。最后通过效果图展示各模块的实际运行界面。

5.1 开发环境

本系统采用B/S架构，后端基于Python语言开发，前端使用HTML5/CSS3/JavaScript，数据库选用SQLite开源嵌入式数据库。系统开发环境配置如表5.1所示。

表5.1 系统开发环境配置

硬件环境	软件环境
CPU：Intel Core i5-1135G7 2.4GHz	操作系统：Windows11专业版
内存：16GB DDR4	数据库：SQLite3.45.0
硬盘：512GB SSD	Web服务器：Flask3.0.0
显示器分辨率：1920×1080	浏览器：Chrome120.0
-	开发环境：Python3.12.0，PyCharm2023.3
-	机器学习库：TensorFlow2.17.0，statsmodels0.14.1，scikit-learn1.4.0
-	前端框架：Bootstrap5.3.0，ECharts5.4.3

5.2 功能模块实现

系统开发环境搭建完成后，接下来依次实现数据展示、预测训练、模型对比以及数据库操作四个核心模块。本节将分别阐述各模块的实现流程、关键代码逻辑以及前后端的交互方式，并对调试过程加以说明。

5.2.1 数据展示模块实现

数据展示模块通过三个API接口向前端提供JSON数据。/api/data/statistics接口调用DataPreprocessor类的get_data_statistics方法，返回总记录数及各污染物均值、最值。/api/data/time-series接口返回日期列表和AQI值列表。/api/data/pm-data接口返回PM2.5与PM10的时序数据。前端使用ECharts实例化折线图。前端页面通过AJAX调用后端API接口获取数据，后端使用DataPreprocessor类完成数据加载与清洗后返回JSON格式。AQI趋势图采用ECharts折线图组件绘制，X轴为日期，Y轴为AQI数值，通过平滑曲线和渐变区域填充增强可读性。PM2.5与PM10双线对比图在同一坐标系中绘制两条不同颜色的折线。污染物平均值柱状图展示六项指标的平均浓度。统计卡片的总记录数、平均AQI、最高/最低AQI在页面加载时异步刷新。该模块实现效果如图5.1所示。

图5.1 数据展示模块图

5.2.2 预测训练模块实现

用户点击“开始训练”按钮后，前端发送POST请求至/api/models/train。后端依次执行数据预处理、LSTM训练和ARIMA训练。

LSTM核心算法实现：采用30步滑动窗口构造监督学习样本。模型为两层LSTM，Dropout比率0.2，输出层为全连接层。训练时使用早停和模型检查点回调。

训练完成后，系统将评估指标写入lstm_results.json和arima_results.json，并将预测对比图、损失曲线图、季节性分解图存入static/results/目录。训练过程中前端显示加载动画，训练完成后自动刷新预测结果页面。LSTM训练过程和ARIMA季节性分解图的效果分别如图5.2和图5.3所示。

LSTM训练过程（损失曲线）如下图所示。

图5.2 LSTM训练过程（损失曲线）

ARIMA季节性分解图的效果如下图所示。

图5.3 ARIMA季节性分解图的效果

5.2.2 模型对比模块实现

/api/models/comparison/results接口读取两个模型的JSON结果文件，并返回所有对比图表的URL。ModelComparator类负责生成五类图表：预测曲线叠加图、性能指标柱状图、准确率饼图、误差分布直方图和性能卡片图。

前端通过/api/models/comparison/results接口获取两个模型的评估结果以及预先生成的对比图表路径。ModelComparator类负责生成所有对比可视化内容：

预测曲线对比图：在同一图中绘制真实值、LSTM预测值和ARIMA预测值三条曲线，使用不同线型和颜色区分，保存为model_comparison.png。

图5.4 预测曲线对比图

性能指标对比柱状图：将准确率、MSE、RMSE、MAE、R²五个指标分组并排展示，LSTM为绿色柱，ARIMA为红色柱，柱顶标注数值，保存为performance_metrics_comparison.png。

图5.5 性能指标对比柱状图

性能卡片图：分别绘制两个模型的水平条形图，展示五项指标的具体数值，保存为performance_cards.png。

图5.6 性能卡片图

前端页面通过表格形式展示每项指标的数值及差异，并自动高亮显示优势模型。同时将上述五张图片嵌入对应卡片中。模型对比页面的最终效果如图5.7所示。

图5.7 误差分布直方图

5.2.4 数据库实现

系统使用SQLite关系型数据库，包含三张表：air_quality_airQualitySystem用于存储原始日数据，字段见第四章表4.1、model_results_airQualitySystem用于存储模型评估指标与超参数，见表3.2、predictions_airQualitySystem用于存储每个测试点的预测值与实际值，见表3.3。数据库初始化代码位于app/database.py，通过init_database()创建表结构，通过import_data_from_csv()将beijing.csv导入。数据访问封装在DataPreprocessor类中，使用pd.read_sql_query执行查询，返回DataFrame供上层调用。