摘要:利用现有的通信光纤(暗光纤)进行分布式声学传感(DAS),已展现出其以高时空分辨率记录由降雨引起的地震噪声的强大能力。这种降雨引起的噪声与降雨强度以及管道下水道中的雨水排放量呈现出强烈的相关性,突显了其在推测雨水径流特征方面的潜力。虽然目前科学界已经存在雨滴撞击模型,但仍缺乏一种将“雨水排放过程”与“DAS记录的信号”直接联系起来的物理模型。在本研究中,我们引入了一种数据驱动的方法——深度嵌入聚类(DEC),从海量DAS数据中自动检测并分类降雨引起的噪声,从而预测中到大雨的发生以及雨水排放的持续时间。我们分析了宾夕法尼亚州立学院一条长4.2公里的地下光纤阵列在2019年至2021年期间连续的DAS记录。在模型训练期间,DEC模型采用自编码器从预处理的频谱图中学习深层特征(潜在特征),然后将这些特征分为四个主要类别。分析显示,这四个类别分别精确对应于:背景噪声、不同降雨强度下的降雨噪声,以及下水道中的雨水排放噪声。我们在2019年和2021年的未参与训练的数据集上进行了测试,结果表明,DEC不仅能够预测降雨强度的水平,还能有效指示雨后的排水持续时间。此外,模型推导出的雨后排水时间与理论合成水文图的估计值高度一致,由此计算出该地区排水系统的“汇流时间”为21分钟。最后,我们将该分析流程应用于另外两个监测点,展示了其在空间大范围监测方面的潜力。研究结果表明,机器学习与光纤传感技术的结合,为城市雨水管理优化提供了一种可规模化推广的解决方案。

通俗版摘要:极端降雨时,城市中不透水的地表阻碍了雨水自然渗入地下,这可能会使城市的排水系统不堪重负。然而,管理者通常无法直接观测到这些雨水径流的情况,这大大增加了水灾破坏的风险。为此,我们引入了一种创新的方法:利用最初为通信而安装的现有地下光纤电缆作为密集的传感器网络,来监测城市地区的雨水径流排放。通过使用分布式声学传感(DAS)的技术,尽管光纤没有直接记录到雨滴落在地面的撞击声,但它可以敏锐地记录下雨水在排水管中流动时产生的噪声。在此,我们分析了2019年和2021年期间一条4.2公里长光纤电缆的连续DAS记录数据。我们使用了一种数据驱动的“深度聚类”AI方法,将这些噪声与雨水流动特性(如降雨率和雨水排放所需的时间)联系起来。该模型有望提供关于降雨动态和城市排水情况的实时见解,从而帮助改善防洪管理和城市水系统。

1. 引言

随着气候变化加剧全球水文循环,许多地区正经历更频繁、更强烈的强降水事件。高度不透水的城市环境对极端降雨响应迅速,产生大量径流,对基础设施、生态系统和公共安全构成威胁。城市景观的空间异质性进一步加剧了径流动态的复杂性,需要高分辨率的监测来理解对降水的局部响应。因此,对降雨和径流进行精细尺度的观测,对于及时的减灾和城市水管理至关重要。

传统的降雨测量依赖于雨量计和天气雷达。然而,基于雷达的降雨估算通常无法准确捕捉地面降水量,而雨量计分布稀疏,仅能提供局部测量值,缺乏足够的空间覆盖。同时,对进入雨水系统的雨水径流的直接测量很少见,大多数城市水文研究依赖于数值模型。为填补这些空白,整合互补的数据源对于监测降雨、雨水流量及其对城市水系统的影响至关重要。

地震传感器越来越多地被用于监测环境过程,如降水变化、河流流量、滑坡和雪崩。最近,分布式声波传感(DAS)已成为一种强大的工具,能将现有的电信光纤(暗光纤)转变为密集的地震传感器阵列。得益于其广泛的覆盖范围和高时空分辨率,DAS能够探测到与不同降雨强度下城市排水系统中的雨水流动相关的降雨诱发噪声。重要的是,由于雨水流与雨水排放系统之间的不同相互作用,降雨诱发噪声呈现出不同的特征,这为推断降雨强度和雨水流动提供了宝贵信息。

然而,由于DAS数据量巨大且城市中存在普遍的人为噪声,从中提取此类信号仍具挑战性。人工检查不可行,而简单的阈值方法在噪声条件下常常失效。虽然机器学习(ML)在地震事件检测方面已展现出潜力——从火山、地震到人为信号——但大多数应用使用的是需要标记训练数据的监督学习方法,而这在我们的案例中并不可行,因为我们缺乏关于径流或排放的真实地面实测数据。另一种方法是,无监督聚类方法可以应用于类似的地震学应用。与需要标记训练数据的监督学习不同,无监督学习基于相似特征在未标记数据中识别模式和聚类。然而,传统的聚类方法在应用于高维数据时通常表现不佳。为了提高效率,深度聚类方法已成为有前景的途径。这些方法使用深度神经网络自动提取显著特征,然后在这个低维特征空间中进行聚类。在地震学中,深度聚类方法已被越来越多地用于分析频谱图并有效识别信号类型。Mousavi应用了Xie最初提出的深度嵌入聚类(DEC)来区分本地地震和远震事件。Snover使用DEC对加利福尼亚州长滩的人为噪声进行聚类,Wang使用DEC对边坡灾害地震记录进行聚类。Jenkins评估了两种深度聚类方法,DEC和深度高斯混合模型(GMM),用于聚类南极洲西部的环境信号,得出结论认为两种方法均未显示出明显的性能优势。继Hu之后,Jenkins使用类似的深度GMM方法对东南极洲的地震活动进行聚类。

在本研究中,我们应用DEC对宾夕法尼亚州州学院市于2019年4月至2021年9月期间采集的连续DAS记录进行分析,以自动分类降雨诱发的地震噪声。我们旨在解决以下问题:

1、DEC能否根据降雨强度和/或下水管道中的雨水排放,有效刻画不同类型的降雨诱发噪声?我们旨在没有任何先验频谱分析的情况下,采用数据驱动的方法,以最小化的主观判断来学习噪声特征。

2、训练好的DEC模型能否推广到未见过的DAS记录,并预测雨水排放及其上游成因——降雨强度?

3、我们能否确定降雨事件的时间进程并估算下水道中雨水排放的持续时间?

4、此工作流程能否推广到不同位置,以实现对雨水动态的空间监测?

本研究展示了无监督学习与DAS相结合如何为城市水文过程的实时监测提供一个可扩展的框架。

2. 数据与数据预处理

本研究中使用的DAS数据由宾夕法尼亚州立大学FORESEE DAS阵列记录,该阵列使用了位于宾夕法尼亚州州学院市宾夕法尼亚州立大学校区地下的电信光纤(图1a)。在本分析中,我们重点关注2019年和2021年雨季(6月至9月)收集的数据。2020年的数据因频繁断电导致连续数据采集中断而被排除,使其不适合用于本研究所需的长期连续分析。

图1. (a) 宾夕法尼亚州州学院市(插图中的红星)宾州州立大学FORESEE阵列地图。红色三角形标记第359通道,蓝色星标标记雨量计。橙色三角形标记用于第5节空间验证的第60和1438通道。(b) 为期三个月研究期间内,第359通道的原始波形。(c) 7月11日至15日的原始DAS波形及(d)其频谱图。(e) 同一4天期间的降雨速率数据。红色和绿色虚线标记大雨和中雨的阈值。

为确保数据集之间的一致性,将最初以500Hz采样的2019年记录进行降采样,以匹配2021年使用的250Hz采样率。关于DAS阵列设置的更多细节可在Zhu中找到。

为了提供降雨事件的地面真实情况,我们使用了宾州州立大学海狸体育场雨量计的降雨数据,从而可以将当地降水趋势与DAS记录的信号进行比较。我们根据英国气象局情况说明书对降雨事件进行分类:小雨(<0.5毫米/小时)、中雨(0.5-50毫米/小时)和大雨(>50毫米/小时)。需要注意的是,虽然许多研究将大雨定义为10至50毫米/小时之间,并将任何超过50毫米/小时的事件视为暴雨,但为了简化分类,我们将传统意义上的中雨和大雨合并为一个"中雨"类别。考虑到水文响应的空间变异性,我们重点分析了第359通道的连续记录,该通道是距离气象站最近(约500米)的通道,并且一直能记录到高质量的降雨诱发噪声。图1b展示了2021年数据集中第359通道为期3个月的原始DAS波形,采样率为250Hz。为了更好地展示DAS对降雨诱发噪声的敏感性,我们放大了2021年7月11日至15日的4天时段,并显示了相应的频谱图(图1c和1d)。图1e以对数尺度显示了这4天期间的降雨速率。

两次强降雨事件(由图1中红色箭头标记)导致原始波形和频谱图的振幅均显著增加。强烈的降雨诱发噪声扩展到了整个频带,最高可达奈奎斯特频率(125Hz)。值得注意的是,即使在降雨结束后,强噪声仍然持续存在,这表明雨水排放与排水系统之间存在持续的相互作用。此外,较小的降雨事件在原始波形中因背景人文噪声而不太明显,但在频谱图的1-10Hz频带中变得清晰可见(图1中的黑色箭头)。潜在的机制可见于本节末尾以及Shen和Zhu的论述。这些频率相关的模式进一步支持了DAS作为实时监测城市水文过程的宝贵工具。

图2. 第359通道在不同时段(干燥期、中/大雨、雨后)记录的地震波形。相应的频谱图经过预处理,用作模型训练的输入。示意图展示了不同情景下降雨诱发噪声的物理机制。

为了准备用于聚类的频谱图,我们应用了以下预处理流程。将连续的DAS波形分割成1分钟长的窗口,并归一化至±1范围。每个窗口使用短时傅里叶变换(STFT)转换为频谱图,得到包含76个频率区间和56个时间区间共计4256个特征的数据。然后,我们通过减去均值并除以标准差来标准化这些特征,这在机器学习应用中通常用于提高训练的稳定性和性能。对于模型训练,我们选取了2021年6月1日至8月15日期间所有降雨时段的DAS数据样本(共3227分钟)。由于我们的目标不仅是进行降雨与非降雨时段的二元聚类,还要区分各种类型的降雨诱发噪声,因此我们旨在构建一个包含不同类型降雨诱发噪声和背景噪声数量相近的平衡数据集。因此,我们随机抽取了较小部分的干燥期数据(1290分钟)作为背景噪声。最终的训练数据集由70%的降雨诱发噪声和30%的背景噪声组成,这确保了降雨情况有良好的代表性,以便模型进行稳健的学习。对于模型评估,我们保留了2021年8月16日至31日以及2019年的所有记录作为未见过的数据。

我们展示了不同降雨时段的四个代表性原始波形及其对应的频谱图,并简要解释了其机制(图2)。与我们之前的工作一致,观测结果表明噪声源自雨水排放而非直接的雨滴撞击,理由如下:(a) 只有靠近检修孔的通道在降雨期间记录到清晰信号;(b) 降雨诱发噪声的振幅在降雨停止后逐渐减弱;(c) 直接雨滴产生的高频信号会随深度快速衰减,只能在地表以下几十厘米内被记录到。我们的黑纤电缆埋深约1-4米,不太可能捕捉到直接的雨滴撞击。

相反,我们将记录的信号归因于雨水排放的不同阶段。降雨结束后,排水系统中残余水流的缓慢滴流可能会在1-10Hz范围内产生微弱且间歇性的低频信号(图2中黑色箭头)。其振幅与背景噪声相当。在中雨期间,稳定的水流可以产生更强的低频信号,主导频谱图。在强降雨条件下,快速水流、进水口处的跌水和碎屑输送可能会产生高达125Hz的高频噪声。

3. 深度嵌入聚类

深度聚类方法包括两个步骤:(a) 预训练一个自编码器以提取原始输入的潜在表示;(b) 将额外的聚类层连接到编码器的潜在空间(图3)。

预训练阶段初始化一个自编码器,用于学习低维特征。对于聚类,我们选择DEC,因为它允许迭代地优化潜在特征和聚类分配。

接下来我们简要介绍这两个阶段。第一步是训练一个自编码器,它由一个编码器和一个解码器组成。编码器将高维输入频谱图编码成一个低维的潜在表示,而解码器则基于这个潜在表示重建输入。本研究中使用的自编码器架构如图3所示。编码器由四个堆叠的卷积层组成,步长为2,依次将每个维度上的数据尺寸减半。最后一层的输出被展平,并输入到一个全连接层,以获得20维的潜在向量Z,也称为瓶颈层。解码器与编码器镜像对称,但将卷积层替换为相同步长(2)的转置卷积层,将潜在向量恢复回原始输入的尺寸。最后,我们对输出进行裁剪,使其尺寸与输入一致。此外,在每个卷积层和转置卷积层之后、相应的激活函数之前应用批归一化,以提高训练速度和稳定性。最后,此预训练过程试图最小化输入(X)与其重建(X')之间的损失函数,即均方误差(MSE):

图3. 本研究中使用的完整DEC模型示意图。编码器接收预处理后的频谱图X作为输入,并将其映射到潜在向量Z。解码器利用潜在向量提供重建的频谱图X'。左下方显示了一对输入和输出数据的示例。潜在向量Z也被输入到聚类层,其中通过将软分配分布与辅助目标分布进行匹配,迭代地优化标签分配和簇成员关系。

接下来的步骤是训练DEC模型。潜在向量zi用于表示频谱图并进行聚类。我们首先使用K-means算法初始化K个簇的簇中心μj。之后,DEC训练作为一种自监督学习,通过最小化数据分布Q与其辅助目标分布P之间的差异来进行,该差异由Kullback-Leibler(KL)散度衡量,

在公式2中,Q是学生t分布(q{ij}),用于衡量嵌入的潜在向量与簇中心之间的相似度,而P是根据q{ij}计算得到的辅助目标分布(p{ij})。在DEC训练过程中,通过将高置信度分配的数据点压缩到一起,来优化潜在空间(即q{ij})。此外,由于DEC训练同时更新自编码器的权重和簇中心,自编码器可能无法很好地编码原始数据,导致潜在空间失真。因此,总损失是聚类损失和重建损失的加权组合,

其中λ是一个超参数,用于平衡两个损失函数的权重。通过考虑联合损失,DEC可以在确保低维潜在向量准确代表原始频谱图的同时,改善聚类结果。

4. 结果

4.1

模型训练

我们首先预训练自编码器模型,批量大小为64。整个训练数据集被随机分为两个子集:90%的数据用于训练,10%用于验证。使用自适应矩估计(Adam)方法优化可训练参数,选择的学习率为1×10^{-3}。图4a显示了预训练阶段40个周期内的训练和验证损失。两个损失函数起初呈指数下降,然后收敛到一个稳定的最小值。训练在40个周期时停止以防止过拟合,因为超过此点后损失没有明显改善。我们还评估了潜在空间的维数,并确认20维在保持模型简单以避免过拟合和保留足够信息以进行准确重建之间提供了一个良好的平衡。图3中随机选取的原始输入示例及自编码器对应的输出显示,预训练的自编码器有效地捕捉了原始输入的特征。由于卷积层及其转置操作带来的下采样和上采样,重建结果比原始输入更平滑。尽管如此,它保留了频谱图中的主要特征。高频脉冲和低频连续信号都在重建结果中清晰显示,表明关键信息已成功编码到20维的潜在特征空间中。

训练完自编码器后,我们接下来将聚类层连接到瓶颈层,并通过最小化公式3中的总损失来进行DEC训练过程。此步骤中使用的超参数是基于一系列测试值的性能表现来选择的。根据肘部法则,最佳簇数确定为4。图4b显示了不同簇数对应的总簇内平方和。在转折点(K=4)之后,增加簇数带来的改进微乎其微。权重λ=0.2用于平衡重建和聚类的性能。另一个超参数是更新采样分布Q和辅助目标分布P的频率。通过超参数调整,发现每个周期更新一次是最优的聚类性能设置。这意味着在一个周期内,尽管每次批次处理后簇中心和潜在向量都在变化,但目标分布P要等到下一次迭代开始时才会更新。

训练过程通过两个评估指标进行监控:联合损失和每个周期后改变簇的样本百分比。图4b显示损失最初增加,但随后减少。继续跨更多周期训练可能会进一步降低损失,但可能导致过拟合。

图4. (a) 预训练阶段的训练和验证损失。(b) 簇内平方和随簇数变化的L曲线。(c) DEC训练期间的聚类(黑色)和重建(橙色)损失。(d) DEC训练期间重分配的百分比。

显示,在最初的几个周期中,多达5%的样本被重新分配到不同的簇。该百分比呈指数衰减,并且在40个周期后,簇分配趋于稳定,几乎不再变化。尽管如此,我们延长了训练以进行更多次迭代,进一步减少目标损失并最小化潜在空间中的失真。最终,我们选择在100个周期时停止训练。

4.2

训练结果

作为一种无监督学习方法,DEC模型在训练后会为数据分配标签,但不会指定每个簇内信号的类型。因此,我们基于三个因素联合评估其性能并解释每个簇:(a) 聚类后的数据分布;(b) 每个簇内的信号特征;(c) 与记录的降雨速率数据的验证。需要注意的是,由于降雨数据与记录的降雨诱发噪声之间可能存在差异,降雨速率数据仅作为补充参考,而非真实标签。降雨速率数据反映了气象站测量的总降雨累积量,而DAS捕获的降雨诱发噪声则与降雨强度和排水系统中的雨水排放都有关联。

图5. (a) DEC训练前潜在数据空间分布的t-SNE可视化。各聚类之间界限模糊,存在潜在的误检测。(b) DEC训练后的潜在数据空间分布。同一簇内的样本形成凝聚性分布。从簇0的一部分延伸至簇3的狭窄连续分布表明了降雨强度的逐渐增加(蓝色箭头)。相反,簇0中广泛分布的数据(红色圆圈)代表了背景噪声。

我们首先检查DEC训练前后潜在空间中的数据分布。为了可视化高维潜在向量,我们使用t分布随机邻域嵌入(t-SNE)算法,将20维数据空间映射到二维表示。图5展示了t-SNE结果,其中每个点代表一个嵌入潜在空间的频谱图,并根据DEC分配给它的簇进行着色。在经典的聚类研究中,分离良好的簇表明DEC已有效学习了不同的信号特征。在我们的案例中,由于降雨随时间连续变化,我们不期望看到严格孤立的簇。相反,除了大多数数据样本应形成连贯的簇之外,我们还期望簇之间存在某种程度的连接,代表降雨的时间演变。在DEC训练之前,出现了四个松散定义的簇,簇0、1和2之间存在重叠区域(图5a)。值得注意的是,簇2出现在簇1两侧的两个不同群体中,暗示可能存在错误标记。训练后,数据分布显示出改善的分离度,重叠最小,簇之间的连接也窄得多(图5b)。

1、簇0——背景噪声:该簇的平均参考降雨速率最低,表示数据记录于干燥期。频谱图主要包含高频背景人为噪声。偶尔会出现几个高频尖峰(>20Hz),很可能由过往车辆产生。在两个频谱图中均未出现低频降雨诱发噪声。

2、簇1——雨水排放诱发噪声:主要特征是在1-10Hz范围内存在微弱、间歇性的低频噪声,在1分钟窗口内不连续但频繁出现。我们将簇1中的噪声归类为由降雨后下水道系统中的雨水排放引起的弱降雨诱发噪声。此外,小雨也能产生类似的特征,但在连续记录中很容易识别:因为小雨只产生极少的排放,检测状态直接从背景状态(簇0)转变为排放状态(簇1),然后返回,从不经过簇2或簇3。

3、簇2——中雨诱发噪声:该簇的降雨速率总体上高于之前的簇。在此簇中可以观察到1-10Hz范围内强烈且连续的低频噪声。因此,该簇被认为主要包含中雨期间的降雨诱发噪声。请注意,簇2和簇3内的某些频谱图也包含由交通引起的瞬态尖峰,其振幅与降雨诱发噪声相当。将这些数据成功识别为降雨诱发噪声,突显了我们的DEC模型在嘈杂的城市环境中区分降雨诱发模式的有效性。

4、簇3——大雨诱发噪声:参考降雨速率最大。频谱图同时包含低频和高频噪声成分。我们将簇3解释为大雨期间的降雨诱发噪声。

每个簇内独特的时间和频率特征与先验知识(第2节)相符,强调了DEC模型学习不同噪声特征的能力。然而,自然界中的降雨诱发噪声表现出连续的演变,而非刚性的簇边界。这种连续性的产生是因为雨水排放是通过不同阶段过渡的,而不是突然变化。因此,靠近簇边界的噪声可能融合了相邻簇的特征,反映了中间阶段。例如,簇1中的第90百分位样本就展示了这种过渡行为。其潜在向量到簇0-3中心的欧氏距离(分别为2.06,0.58,0.73 和1.19)显示,它到簇1和簇2的距离几乎相等,将其置于数据分布的边界上。这种空间关系对应于从中雨到雨水排放条件的转变,频谱图也支持这一点:与典型的簇1示例相比,其低频噪声更连续,但仍弱于簇2。

潜在空间中聚类数据的分布进一步支持了这一渐进演变(图5b)。数据点形成的狭窄连续分布反映了降雨和雨水排放过程的连续性。代表降雨强度增加的时间进程被编码在从簇1延伸到簇3的蛇形分布中(图5b中用红色箭头标记)。与此同时,簇0中的大部分数据形成了一个紧密且有凝聚力的群体,与此序列分开,代表干燥期的背景噪声(图5b中红色虚线圆圈)。值得注意的是,一小部分簇0数据延伸出其核心区域,连接到了簇1(图5b中红色箭头标记),这对应于背景噪声与雨水排放最后阶段的微弱降雨诱发信号之间模糊的边界。我们的结果表明,DEC模型不仅能区分信号类型,还能捕捉隐藏在DAS记录的降雨诱发噪声中的细微水文过渡。

图6. 从左到右:距离DEC聚类结果中心第n近的频谱图,从较近(第5)到较远(第90)。从上到下:簇0到3的示例频谱图,代表从弱到强的降雨诱发噪声。每个子图的标题表示记录时的降雨速率(毫米/小时),作为解释这些信号来源的参考。

最后,我们量化了所有簇之间的频谱差异。基于图6的观察,我们特别关注两个可能受雨水排放影响最大的频段:1-10Hz和10-100Hz,分别代表低频和高频频段。我们从训练样本的每个原始波形的相应功率谱密度(PSD)中计算1-10Hz和10-100Hz频段的能量。然后,我们绘制了每个簇中频段能量的分布。图7a显示,在1-10Hz频段,簇0在-5dB附近有一个尖锐的峰值,表明能量非常低,水文活动极少。相比之下,簇1、2和3显示出逐渐升高的能量分布,簇3的能量最高可达约60dB。这四个分布分离良好,仅在簇2和簇3之间有部分重叠。相比之下,簇0、1和2在10-100Hz频段的能量分布相似,峰值均在20dB左右(图7b)。然而,簇3显示出更广泛的高值分布,表明簇3主要是在大雨期间具有强烈高频成分的降雨诱发噪声。该分布证明DEC有效地捕捉了不同降雨诱发噪声的特征,这些特征反过来又被用来准确标记这些簇。

图7. 四个簇在1–10Hz(a)和10–100Hz(b)频段内的能量分布。

4.3

2019年至2021年连续数据的测试结果

在使用2021年6月1日至8月15日的数据训练DEC模型并展示其性能之后,我们将训练好的模型应用于未见过的数据集,包括同年稍晚的数据(2021年8月16日至31日)以及两年前的历史数据(2019年6月至8月)。该模型使用1分钟窗口(无重叠)扫描连续的DAS记录,并输出降雨诱发噪声的识别结果,以模拟降雨事件的实时监测。

为了评估模型性能,我们首先检查其在被标记为降雨事件的时段内是否能准确检测到降雨诱发噪声,并以附近气象站的降水数据作为参考。在91天的测试期内,气象站记录到2019年有1684分钟的降雨,2021年有1153分钟。其中,2019年有1486分钟,2021年有837分钟被赋予标签1-3(降雨诱发噪声),准确率达到82%。需要注意的是,这个指标依赖于降雨速率数据,而降雨速率数据无法代表雨水排放的持续时间。因此,如果能获得精确的排放标签,模型的准确率可能会更高。

我们接下来通过分析2019年和2021年连续两周的检测结果来评估模型。对于连续预测,我们应用了一个额外的后处理步骤,通过定位与前后邻居均不同的单个值来平滑输出。这些孤立的尖峰约占数据的0.3%,使用窗口大小为3的中值滤波器进行移除。图8显示了DEC的预测结果以及降雨速率数据和1-10Hz频段的DAS能量。总体而言,大多数降雨事件都能被准确识别,DEC预测结果与降雨速率数据和低频能量变化吻合良好。因此,该模型通过预测标签的时间变化有效地捕捉了降雨动态。值得注意的是,在某些干燥期,我们仍然观察到能量变化的显著增加。然而,DEC模型正确地识别出这些时段中的大多数与雨水排放无关,并将其归类为簇0(图8中绿色箭头)。仅出现了两次误报(图8中蓝色箭头)。这些时段确实显示出类似于簇1的间歇性低频信号,但可能是由未知的人为活动引起的。大多数漏报发生在小雨期间,气象站仅记录到0.25毫米(0.01英寸)的降水量——这是可测量的最小值(图8中用红色箭头标记),这些微小雨通常只持续几十分钟。

图8. 2019年7月15日至29日和2021年8月16日至30日期间,DEC模型的预测子集与降雨速率数据和1-10 Hz DAS能量变化的对比。红色箭头标记的是根据DEC预测未产生降雨诱发噪声的最小降雨事件。蓝色箭头显示误报。绿色箭头表示根据振幅变化显示的强人为噪声被正确识别为背景噪声而非降雨诱发噪声。

往往无法产生足够的径流来触发可检测的降雨诱发噪声,因为1-10Hz频段的能量没有显著增加。

为了进一步评估模型的性能,我们放大查看两个具体示例。第一个示例涉及2019年8月2日的两次低强度降雨事件,每次持续约20分钟(图9a)。在DAS时间序列数据中,降雨诱发噪声与环境背景噪声难以区分(图9b)。然而,相应的功率谱密度(PSD)变化(图9c)揭示了不同的频率特征。尽管持续时间和降雨速率相似,但两次事件的频谱特征明显不同:第一次毛毛雨产生了微弱的低频噪声(1-10Hz),而第二次则没有产生连续的降雨诱发噪声。这一观察突显了最终排放过程的复杂性,并强调了需要额外的与排放相关的测量。尽管降雨量极小,DEC模型准确地将第一次事件归类为弱降雨诱发噪声(标签1),但由于第二次事件缺乏可检测的噪声特征,模型没有记录到它(图9d)。仅出现簇1检测表明,我们的方法成功捕捉到了第一次小雨期间的微弱排放。此外,观测到的降雨诱发噪声略早于降雨开始,这可能归因于上游排放。雨水可能更早到达上游区域,导致水流经排水系统,在本地降雨开始前就产生了可检测的噪声。这突显了DAS测量可能提供关于降雨期间真实排放状况的补充信息。

第二个示例研究了8月18日0:00至8月19日12:00(世界协调时)的降雨,在此期间,热带风暴弗雷德的残余穿过宾夕法尼亚州,带来了大范围的强降雨。降雨速率数据显示了不同强度的几次明显降雨事件(图10a)。在大约10:00、18:00和21:00的强降雨时段,当峰值降雨速率超过50毫米/小时时,检测到了20Hz以上的高频噪声。值得注意的是,18:00时发生了一场100毫米(约4英寸)的强雷暴,导致美国国家气象局(NWS)同时发布了龙卷风和山洪警报。分析原始DAS波形,我们观察到只有在8月18日18:00之后的强降雨事件产生了可识别的降雨诱发噪声特征(图10b)。PSD分析显示,低频噪声(1-10Hz)在所有降雨事件中都出现,并在雨后排放阶段逐渐减弱(图10c)。此外,我们比较了应用DEC前后深度学习模型的检测结果。识别降雨诱发噪声的改进是明显的,如图10d和10e所示。具体来说,降雨事件之后的降雨诱发噪声被更准确地识别并被赋予标签1,如图10e中红色箭头所示。例如,大约在16:00发生的雨水排放——从频谱图中的低频降雨诱发噪声可以证明——现在在后DEC检测中被准确检测到。此外,前DEC预测中的一些突发振动被移除了(图10d中的蓝色箭头)。通过将DEC输出与降雨速率和PSD变化相关联,我们确认DEC模型准确地识别了降雨事件的开始(用橙色线标记),并将DAS记录分类为多个类别。预测标签0-3对应从无雨到强雨的不同降雨强度。具体来说,在10:00、18:00和21:00左右被识别为标签3的DAS记录对应大雨,而标签2代表中雨。重要的是,该模型还检测到了降雨后标记为标签1的低频噪声(图10中的红色箭头),这表明了雨后径流排放的持续时间——这是降雨速率数据通常无法提供的过程。例如,频谱图显示低频降雨诱发噪声在8月18日12:00左右消失,这在DEC输出中得到了准确反映(图10中的绿色虚线)。通过分析连续记录中的不同标签,我们可以区分降雨不同阶段(大雨、中雨和雨后排放)的降雨诱发噪声。最后一次排放过程结束时的尖峰过渡可能反映了逐渐减弱的雨后排放与离散聚类输出之间的不匹配。当排放强度徘徊在簇0和簇1之间的决策边界附近时,模型会产生不稳定的标签分配。

4.4

对排放过程的启示

我们进一步探究雨后阶段的降雨诱发噪声是否能为排放持续时间提供定量估计。在城市地区,很大一部分径流被引导至排水系统。因此,我们使用描述随时间变化的直接径流的当地水文过程线来近似排放时间。由于缺乏直接的流量测量,我们通过将降水与单位水文过程线进行卷积来估计水文过程线。

其中Qn是时间n处的直接径流,Pi是时间i处的降水量。单位水文过程线U{n-i+1}是由流域上均匀产生的1个单位(英寸或毫米)的净雨所产生的直接径流过程线,可以从观测到的降雨-径流数据中获得,或根据流域特征估算为合成单位水文过程线。

图9. 2019年8月2日小雨示例:(a) 气象站的降雨速率数据。(b) 第359通道的原始DAS波形及其(c)相应的频谱图。(d) DEC模型的预测结果。

在此,我们应用广泛使用的土壤保护局(SCS)方法来获得合成的Ui。图11a展示了SCS无量纲单位水文过程线,该曲线源自众多小型农业流域的实测降雨-径流数据。该曲线是无量纲的,y轴为q/qp(流量/峰值流量)的比值,x轴为t/tp(时间/到达峰值时间)的比值,这使得它在缩放后可以直接适用于我们的区域。

图10. 2021年8月18日至19日中/大雨示例:(a) 气象站的降雨速率数据。(b) 第359通道的原始DAS波形及其(c)相应的频谱图。(d) 应用DEC前和(e)应用DEC后模型的预测结果。橙色线表示降雨事件的开始。绿色虚线表示根据(c)得出的排放过程结束时间。

虽然qp和tp可以根据流域的各种物理和水文特性(如坡度、土地利用、土壤类型和降雨模式)进行估算,但这些因素最终影响一个参数,即汇流时间(Tc)。Tc通过经验关系式与tp和qp相关联:

其中qp的单位是立方英尺/秒,484是可能因不同流域而异的峰值流量常数,A是以平方英里为单位的流域面积。在我们的分析中,我们假设靠近第359通道的雨水管道的流域面积是附近不透水的停车场和车道,估计面积为1公顷(0.0038平方英里)。由于我们的目标是估算排放持续时间,而不是绝对的峰值流量值,因此A的具体选择以及由此产生的qp幅度不会影响我们的结论。

使用城市排水系统的典型Tc值(范围从9到60分钟),我们计算tp和qp以生成合成水文过程线。图11b展示了Tc=15分钟时的单位水文过程线示例。然后,我们将单位水文过程线插值到1分钟间隔,与降雨速率数据卷积以估算径流,并转换为国际单位制(立方米/秒)。图11c展示了2021年8月18日前两次降雨事件(图10)的合成水文过程线示例。图11c中的阴影区域表示估算的排放时间,定义为从降雨结束到径流接近于0的时段。

为验证我们的方法,我们将DEC预测的排放时间与水文过程线模型模拟的排放时间进行比较。DEC将标记为标签1的时间间隔归类为雨水径流正在主动排放的时期。图12显示了使用三个不同Tc值时,DEC预测的排放时间与水文过程线模型模拟的排放时间之间的相关性分析。每个数据点代表每2天内的排放时间。对于较短的Tc(9分钟,图12a)和较长的Tc(60分钟,图12c),模型模拟的排放时间分别短于和长于DEC预测的排放时间。对于Tc=21分钟,散点图显示出理想的一致关系,表明我们的DEC结果与模型模拟的雨后排放持续时间相匹配。基于此分析,我们估计研究区域内雨水排放系统的汇流时间约为21分钟。该估计值接近使用1公里渠道长度和1%坡度通过Kirpich经验公式得出的Tc。此外,DEC预测可以指导排水系统的评估和维护。例如,1:1关系线上方的异常点表明,根据降雨诱发噪声得出的排放时间远长于应有值。可能的原因包括排水系统堵塞或排放过程效率低下。这两种原因都可能导致突发性洪涝。

图11. (a) SCS无量纲单位水文过程线。注意,在单位水文过程线中,汇流时间定义为从净雨开始到过程线退水段拐点的时间。(b) 缩放后的单位水文过程线。(c) 使用2021年8月18日实际降雨速率数据通过公式4模拟径流的示例。灰色区域表示雨水排放时间,定义为从降雨速率曲线归零到估算径流下降至0的区间。

5. 关于可扩展性的讨论

虽然本研究主要侧重于揭示雨水排放的时间变化,但一个自然的问题是,我们的工作流程是否可以推广到其他位置。沿着我们4公里长的光纤路径,大约有20个位置清晰地记录了降雨诱发噪声。理想情况下,将这些站点应用于聚类可以提供对降雨事件期间雨水排放响应空间变异性的见解。然而,由于缺乏地面真实数据——我们的研究区域没有详细的城市排水系统几何信息和空间分辨的雨水排放测量数据——验证结果仍然具有挑战性。尽管存在这些限制,我们还是将我们的方法迁移到另外两个通道,即位于校园中心高活动区域附近的第1438通道和位于安静区域的第60通道,以定性地讨论空间监测的潜力。

我们方法的一个关键优势是能够以完全数据驱动的方式刻画和聚类降雨诱发噪声。由于排水系统设计、集水区特性和近地表条件的差异,每个位置可能表现出独特的信号特征。为了展示这种灵活性,我们对每个通道应用了与第359通道完全相同的工作流程,使用相同的训练时间窗口、网络架构和超参数重新训练一个新的DEC模型。这种一致的设计最大限度地减少了针对特定地点聚类的手动输入。

图13显示了在第1438通道和第60通道上,针对与图10相同的降雨事件的DEC预测结果。第1438通道的频谱图显示出嘈杂的图案,这是由于白天高水平的人为噪声造成的(图13b)。尽管如此,DEC模型有效地区分了降雨诱发噪声与学校活动产生的噪声——即使两者占据相似的频段(图13c)。此外,该模型准确地将在后的排放过程标记为簇1。簇1的开始与降雨结束对齐(图13中的青色线),簇1的结束与频谱图中低频能量的衰减相匹配(图13中的红色线)。有趣的是,该位置的降雨诱发信号,无论是中雨还是大雨,始终包含高频能量,导致模型将所有降雨事件归类为簇3。

在第60通道,频谱图显示在降雨开始时,特别是在第一次降雨事件期间,出现短暂强烈的宽带噪声。此后,在降雨期间和降雨后时段都观察到了强烈的低频能量(1-10Hz),一直持续到8月19日12:00左右(图13d)。这种延长的持续时间,超过了第359和第1438通道,可能反映了更持久的雨水排放。DEC模型成功捕捉到了这种变化,将强噪声归类为簇3,主要排放阶段归类为簇2,逐渐减弱的流量归类为簇1(图13e)。

在所有三个测试位置,我们观察到降雨诱发信号的时频特征存在显著差异,这表明了复杂的雨水排放响应,并强调了进行特定地点、自动化噪声特征描述的重要性。通过比较每个站点的DEC预测结果(图10e,13c和13e),我们发现了排放持续时间的差异,其中第1438通道最短,其次是第359通道,第60通道最长。这些发现突显了局部排水网络几何形状和流动路径可能如何影响排放行为。第359和第60通道都位于主校区之外,更靠近流域出口。这些下游位置由于上游径流的累积和传播时间延迟,往往具有更长的排放周期。

最后,我们分享对更广泛空间监测应用的看法。现阶段,为每个新站点重新训练模型似乎是最有效的策略。例如,在第359通道训练的模型无法看到其他位置降雨诱发噪声的独特频谱特征。虽然它仍然可以检测到降雨诱发噪声的存在,但可能无法区分不同的排放阶段。展望未来,随着更多位置报告和描述降雨诱发噪声的特征,可以开发一个全面的降雨诱发噪声示例库。这将使得训练一个能够在不需重新训练的情况下对多个位置的降雨诱发信号进行分类的通用聚类模型成为可能,从而促进使用DAS进行可扩展的自动化水文监测。

图12. 整个研究期间DEC预测排放时间与模型模拟排放时间的交叉图。灰色虚线表示1:1的比例。

图13. 与图10相同的降雨事件期间,(a) 第1438通道和 (b) 第60通道的频谱图,以及 (c) 第1438通道和 (d) 第60通道相应的DEC预测结果。青色线表示降雨结束时间(根据降雨速率数据)。红色线表示根据频谱图推断的排放结束时间。

6. 结论

在本研究中,我们介绍了一种基于深度嵌入聚类(DEC)的无监督方法,用于分析和分类城市环境中由分布式声波传感(DAS)光纤记录的海量、未标记数据集中的降雨诱发噪声。我们应用该模型来分析位于宾夕法尼亚州州学院市的宾州州立大学FORESEE地下光纤阵列的连续DAS记录。通过检查训练数据的分布、每个簇的频谱特征,并参考来自附近气象站的降雨数据,我们能够将DEC识别的四个簇解释为背景噪声、不同强度的降雨(中雨和大雨)诱发噪声以及降雨后的雨水排放。

训练后的模型成功地推广到了未见过的2019年和2021年数据集,准确地检测和分类了降雨诱发噪声。DEC模型不仅能指示降雨强度,还能捕捉降雨后雨水排放的持续时间,提供了超越传统雨量计测量的见解。值得注意的是,模型预测的排放持续时间与假设该区域汇流时间为21分钟的合成水文过程线估计值高度吻合。这种一致性突显了利用DAS数据推断雨水排放动态的潜力。

通过将我们的工作流程重复应用于其他两个通道并识别排放持续时间的空间变化,我们展示了机器学习与光纤传感相结合为雨水监测提供了一种可扩展且自动化的方法。与专注于降雨速率的传统气象测量不同,DAS-DEC框架提供了空间密集且实时的信息,既涉及降雨强度也涉及雨水排放过程,这对于洪水风险评估至关重要,并能支持城市基础设施规划和管理。

展望未来,由于本研究引入的方法需要最少的人工输入,它可以轻松扩展到其他站点,并增强对降雨动态和城市水文响应的空间监测。未来的研究可以探索DEC在不同地理区域的普适性,并研究其在解码地震记录中嵌入的其他环境过程的应用。此外,将DAS与现场流量传感器等补充的水文气象数据源相结合,可以进一步提高降雨和雨水排放监测的准确性。这项研究通过利用DAS和机器学习技术解码城市景观中复杂的环境过程,为经济高效、大规模的水文气象监测新时代铺平了道路。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐