目录

1.描述性分析

2.特征工程

2.1时间特征工程

2.2风场特征工程

2.3滞后特征

2.4滚动统计量

2.5邻居站点聚合特征

1.描述性分析

本研究对高雄市2020年至2024年的空气质量数据进行了描述性分析,以揭示其核心的统计特征、时间演变规律以及空间异质性。

高雄市空气质量已稳定处于中国大陆AQI标准的“良”水平(年均值55~65),五年改善幅度约10~15个AQI单位,整体脱离“中度污染”区间,但空间高度分异、季节剧烈波动、颗粒物与臭氧双峰并存的结构性特征依然突出。空间分布呈现极其稳定的“南高北低”格局如下图所示。

污染物贡献随季节精准切换如下图所示:冬季PM2.5与PM10高度突出,贡献率常超70%,NO2与CO也明显升高;夏季臭氧O3及O3_8hr取代颗粒物成为最高子指数,峰值贡献率可达90%以上;春秋季则呈现NO2、CO与颗粒物“三分天下”的均衡状态。这种“冬颗粒、夏臭氧”的双峰模式已成为高雄最显著的污染特征。

气象成因是冬季高值的核心外因。高雄全年盛行东北季风如下图所示,N~NE方向频率最高,风速多集中在5.5~11m/s,有利于污染物向西南快速输送与扩散;但冬季东北风更强、更稳定,常伴随地面辐射逆温与混合层高度降低,导致颗粒物在北部工业带与港口区持续累积。西南向(SW~WSW)虽全年频率最低,一旦出现往往风速<2.7m/s,伴随静稳与回流,成为冬季短时重污染过程的典型气象背景。

下图以数值标注直观呈现5个站点间AQI的线性相关程度,核心解读聚焦美浓与其他重污染站点的关联。美浓与四大重污染站点的AQI相关系数介于0.820-0.832之间(与前金最高 0.832,与小港最低 0.820),均处于高相关水平(通常 | r|≥0.8 为强相关)。四大重污染站点间的相关系数更高(0.896-0.959),体现重污染区域内部污染同步性极强;而美浓作为理论上的清洁背景站,仍与它们保持强相关,直接印证了美浓的空气质量会被其他重污染站点的污染扩散所影响,区域污染传输效应显著。相关系数未达到完全同步(<0.9),且美浓AQI均值更低,说明其清洁背景属性仍起作用,污染影响是 “区域传输叠加” 而非自身排放主导。

下图展现了2020年1月(冬季污染高发期)五大站点的AQI实时波动趋势,进一步佐证美浓与重污染站点的关联。时间波动高度同步:四大重污染站点的AQI峰值(部分时段接近100)与谷值出现时间完全一致,而美浓的AQI曲线虽整体处于低位(多数时段50-60),但波动节奏与前者完全同步——当重污染站点AQI飙升时,美浓AQI也随之小幅上升,当重污染站点AQI下降时,美浓也同步回落。污染传输痕迹明显:1月中旬出现的两次污染高峰中,美浓AQI随林园、小港的污染峰值同步抬升,印证了冬季静稳天气下,重污染区域的污染物通过大气传输影响到美浓所在的山区,与相关系数矩阵的结论相互呼应。

下图柱状图清晰展现了三类时段下各污染物的平均浓度差异,其中重污染时段污染物浓度显著叠加。早高峰(7-9点)对应的重污染时段中,PM2.5、PM10浓度接近60μg/m³和50μg/m³,较优良时段(约10μg/m³、15μg/m³)高出5-6倍,NO2浓度同步达到峰值,与早高峰机动车流量激增、尾气排放集中直接相关,时段浓度与交通流量强相关。优良时段各类污染物浓度均处于最低水平,反映非高峰时段(如夜间、周末)交通排放减少后的空气质量状态;轻度污染时段污染物浓度介于两者之间,多对应平峰时段,交通排放强度中等,无明显污染物叠加效应,O3浓度时段特征特殊。O3作为二次污染物,在重污染时段浓度未出现峰值(反而低于部分轻度污染时段),推测早高峰高浓度NO2(强氧化剂消耗剂)抑制了O3生成,符合“NO2-O3光化学反应平衡”规律。

2.特征工程

2.1时间特征工程

时间特征是空气质量预测的基础,能够有效体现由人类活动、气象条件日变化和季节更迭引起的周期性污染规律。影响AQI的重要污染物浓度往往呈现出日内、周内、年内的周期性变化,同时受人类活动(如周末与工作日差异)影响显著,本研究通过多形式时间特征编码,充分挖掘时间维度的预测信息。为了解决离散时间的“边界效应”与“连续性缺失”的问题,采用三角函数编码将离散周期特征转化为连续矢量,即循环特征编码特征中的变量。

特征类别

变量名称

变量定义

基础时间特征

hour

一天中的小时数

month

一年中的月份数

dayofweek

一周中的天数

循环特征编码

hour_sin

hour_sin=sin(2π×hour/24)

hour_cos

hour_cos=cos(2π×hour/24)

month_sin

month_sin=sin(2π×month/12)

month_cos

month_cos=cos(2π×month/12)

day_sin

day_sin=sin(2π×dayofweek/7)

day_cos

day_cos=cos(2π×dayofweek/7)

特殊时间标记

is_weekend

周末为1,工作日为0

2.2风场特征工程

风场是影响大气污染物传输、扩散、累积的核心物理驱动因子,其“风向+风速”的复合特性直接决定了污染物的空间迁移路径与扩散强度——风向主导污染物的输送方向,风速决定污染物的扩散效率。

在风场特征中完成了以下四方面工作:基于监测数据中的风场指标,筛选并整理目标站点与邻居站点的原始风场数据,为“区域风场协同效应”建模提供数据支撑;通过角度单位转换将风向从“度”转换为“弧度”,消除角度单位的量纲差异;基于三角函数将其分解为水平东西向和垂直南北向两个正交分量,通过两个分量的组合完整表征风场的输送特性——水平分量(Wind_X)反映污染物在东西方向的输送强度,垂直分量(Wind_Y)反映污染物在南北方向的输送强度;结合空气质量的空间扩散特性,将目标站点与邻居站点的风场特征进行整合,构建区域风场协同特征。

特征类别

变量名称

变量定义

原始风场特征

winddirec

目标站点的风向(原始角度)

windspeed

目标站点的风速

[站点]_winddirec

邻居站点的风向

[站点]_windspeed

邻居站点的风速

矢量分解特征

Wind_X

Wind_X=windspeed*cos(winddirrecrad)

Wind_Y

Wind_Y=windspeed*sin(winddirrecrad)

[站点]_Wind_X

邻居站点风场水平分量

[站点]_Wind_Y

邻居站点风场垂直分量

2.3滞后特征

滞后特征是捕捉空气质量时间依赖性的核心载体,其本质是利用“历史污染状态”预测“未来污染演变”——污染物浓度的变化具有显著的连续性与累积性,当前时刻的污染水平不仅受即时排放、气象条件影响,更与短期、中期、长期的历史污染累积密切相关。

通过构建滞后特征,可以量化污染的累积效应、趋势延续与周期重复规律,提升预测结果的可解释性与实用价值。表10的滞后特征AQI/PM2.5_lag_1/3/6/12/24/36/48分别表示了目标站点1/3/6/12/24/36/48小时前的AQI值/PM2.5浓度,其中短期滞后特征可量化为“即时累计”,中期的数值上升和下降则能说明污染的变化趋势,污染变化还存在显著的日周期规律,因此需要捕捉日周期规律。

特征类别

变量名称

特征意义

AQI滞后特征

AQI_lag_1

捕捉短期即时污染累积效应

AQI_lag_3

捕捉短期污染累积效应

AQI_lag_6

捕捉中期污染累积效应

AQI_lag_12

捕捉中期污染累积效应

AQI_lag_24

捕捉日周期污染累积效应(昨日同期污染水平对今日的影响)

AQI_lag_36

捕捉跨日中期污染累积效应

AQI_lag_48

捕捉跨日长期污染累积效应,覆盖两天的污染累积影响

PM2.5滞后特征

PM2.5_lag_1

PM2.5是AQI核心贡献因子,捕捉短期PM2.5累积对AQI的影响

PM2.5_lag_3

捕捉短期PM2.5累积效应

PM2.5_lag_6

捕捉中期PM2.5累积效应

PM2.5_lag_12

捕捉中期PM2.5累积效应

PM2.5_lag_24

捕捉日周期PM2.5累积效应

PM2.5_lag_36

捕捉跨日中期PM2.5累积效应

PM2.5_lag_48

捕捉跨日长期PM2.5累积效应

2.4滚动统计量

滚动统计量,又称滑动窗口统计量是捕捉空气质量时间序列趋势性、波动性与累积效应的核心特征,其本质是基于固定长度的“滑动窗口”,对历史时间序列数据进行统计计算,将离散的单点数据转化为反映“局部窗口内全局规律”的结构化特征。

特征类别

变量名称

特征意义

滚动均值特征

AQI_roll_mean_6

反映短期污染平均水平,捕捉污染趋势

AQI_roll_mean_12

反映中期(12 小时)污染平均水平

AQI_roll_mean_24

反映日周期污染平均水平,消除短期波动干扰

AQI_roll_mean_48

反映跨日污染平均水平,捕捉长期趋势

滚动标准差特征

AQI_roll_std_6

反映短期污染波动强度,识别污染突变情况

AQI_roll_std_12

反映中期污染波动强度

AQI_roll_std_24

反映日周期污染波动强度

AQI_roll_std_48

反映跨日污染波动强度,识别长期波动规律

2.5邻居站点聚合特征

邻居站点聚合特征是指:在明确目标站点的邻居站点范围后,基于前置滞后相关性分析得到的“最优滞后时间”对邻居站点AQI数据进行时间对齐,再通过统计聚合方法计算得到的反映区域污染状态的特征。

邻居站点聚合特征的本质是“空间信息整合与区域规律提炼”——通过整合周边站点的污染数据,将单一站点的“局部视角”拓展为区域的“全局视角”,其价值定位体现在:从“单点孤立”到“区域协同”,打破单一站点数据的局限性,捕捉区域污染的整体水平与分布规律;量化污染扩散的空间关联,将“上游站点污染到下游站点扩散”的物理过程转化为可量化的特征,为模型提供空间因果支撑;补充区域污染背景信息,目标站点的污染浓度不仅受本地排放影响,更受区域污染背景制约。

特征类别

变量名称

意义

邻居聚合特征

neighbor_AQI_mean

反映目标站点周边区域的平均污染水平,体现区域污染背景值

neighbor_AQI_std

反映周边区域污染分布的均匀性,标准差越大说明区域污染差异越显著

neighbor_AQI_max

捕捉周边区域的极端污染水平,预警目标站点可能面临的污染峰值

neighbor_AQI_min

反映周边区域的最低污染水平,为目标站点污染下限提供参考

本研究中的特征工程之间并非孤立存在,而是形成紧密协同的互补关系:时间特征搭建污染演变的周期框架,明确“何时变化”的节律基础;风场特征量化污染物传输的物理机制,解答“为何扩散”的动力逻辑;滞后特征捕捉特定历史时刻的累积效应,揭示“从何而来”的时序因果;滚动统计量提炼历史窗口的趋势与波动,强化“如何变化”的规律支撑;邻居站点聚合特征覆盖区域污染的空间关联,提供“何地影响”的协同背景。

下一篇将开始模型建立!

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐