张量‑深度神经网络混合模型用于阵列信号处理:一种公式化框架

在阵列信号处理(如DOA估计、波束形成、源分离)中,接收数据天然具有多维结构:空间、时间、频率、快拍或极化。引入张量表示可保留高阶关联,进一步与深度神经网络(DNN) 结合,能够学习复杂的非线性映射或隐式正则化。本文给出三种典型融合架构的数学模型。

1. 阵列接收信号的张量模型

考虑一个均匀线性阵列(ULA)有 MMM 个阵元,接收 KKK 个远场窄带信号,LLL 个快拍。传统快拍数据矩阵 Y∈CM×L\mathbf{Y} \in \mathbb{C}^{M \times L}YCM×L

Y=A(θ)S+N \mathbf{Y} = \mathbf{A}(\boldsymbol{\theta}) \mathbf{S} + \mathbf{N} Y=A(θ)S+N

其中 A(θ)∈CM×K\mathbf{A}(\boldsymbol{\theta}) \in \mathbb{C}^{M \times K}A(θ)CM×K 为流形矩阵,S∈CK×L\mathbf{S} \in \mathbb{C}^{K \times L}SCK×L 为信号波形,N\mathbf{N}N 为噪声。

为引入张量结构,可构建三阶张量 Y∈CM×L×Q\mathcal{Y} \in \mathbb{C}^{M \times L \times Q}YCM×L×Q(例如:QQQ 个频点、或 QQQ 个脉冲、或利用极化多样性):

Y=A×2S+N \mathcal{Y} = \mathcal{A} \times_2 \mathbf{S} + \mathcal{N} Y=A×2S+N

更一般的四阶张量(阵元 × 快拍 × 频率 × 极化):

Y(m,l,f,p)=∑k=1Kam(θk) sl,k ϕf(θk) ψp(θk)+N(m,l,f,p) \mathcal{Y}(m, l, f, p) = \sum_{k=1}^{K} a_m(\theta_k) \, s_{l,k} \, \phi_f(\theta_k) \, \psi_p(\theta_k) + \mathcal{N}(m,l,f,p) Y(m,l,f,p)=k=1Kam(θk)sl,kϕf(θk)ψp(θk)+N(m,l,f,p)

其中 am(θk)a_m(\theta_k)am(θk) 为空间响应,sl,ks_{l,k}sl,k 为快拍波形,ϕf(θk)\phi_f(\theta_k)ϕf(θk) 为频域响应,ψp(θk)\psi_p(\theta_k)ψp(θk) 为极化响应。

2. 深度神经网络模块的基本定义

记一个 LLL 层前馈神经网络为

h(0)=x,h(ℓ)=σℓ(W(ℓ)h(ℓ−1)+b(ℓ)),y^=h(L) \mathbf{h}^{(0)} = \mathbf{x}, \quad \mathbf{h}^{(\ell)} = \sigma_{\ell}\left( \mathbf{W}^{(\ell)} \mathbf{h}^{(\ell-1)} + \mathbf{b}^{(\ell)} \right), \quad \hat{\mathbf{y}} = \mathbf{h}^{(L)} h(0)=x,h()=σ(W()h(1)+b()),y^=h(L)

其中 W(ℓ)\mathbf{W}^{(\ell)}W() 为权重,b(ℓ)\mathbf{b}^{(\ell)}b() 为偏置,σℓ\sigma_{\ell}σ 为激活函数(如ReLU、Tanh)。对于张量输入,需进行向量化或使用张量层

3. 混合模型架构

3.1 模型 A:张量预处理 + 深度神经网络(T‑DNN)

接收张量 Y\mathcal{Y}Y 首先经过张量收缩特征提取,得到一个低维特征向量 z\mathbf{z}z,再输入DNN完成最终估计(如DOA角度)。

步骤1:张量预处理(典型:Tucker压缩或CP特征)

  • Tucker压缩:
    G=Y×1U1H×2U2H×3U3H \mathcal{G} = \mathcal{Y} \times_1 \mathbf{U}_1^H \times_2 \mathbf{U}_2^H \times_3 \mathbf{U}_3^H G=Y×1U1H×2U2H×3U3H
    取核张量 G\mathcal{G}G 并向量化:z=vec(G)∈CR1R2R3\mathbf{z} = \mathrm{vec}(\mathcal{G}) \in \mathbb{C}^{R_1 R_2 R_3}z=vec(G)CR1R2R3

  • CP特征:将 Y\mathcal{Y}Y 的CP分解的因子矩阵拼接:
    z=[vec(A(1))⊤,vec(A(2))⊤,vec(A(3))⊤]⊤ \mathbf{z} = \left[ \mathrm{vec}(\mathbf{A}^{(1)})^\top, \mathrm{vec}(\mathbf{A}^{(2)})^\top, \mathrm{vec}(\mathbf{A}^{(3)})^\top \right]^\top z=[vec(A(1)),vec(A(2)),vec(A(3))]

步骤2:DNN映射

θ^=fDNN(z)=W(L)σL−1(⋯σ1(W(1)z+b(1))⋯)+b(L) \hat{\boldsymbol{\theta}} = f_{\mathrm{DNN}}(\mathbf{z}) = \mathbf{W}^{(L)} \sigma_{L-1}\big( \cdots \sigma_1(\mathbf{W}^{(1)}\mathbf{z} + \mathbf{b}^{(1)}) \cdots \big) + \mathbf{b}^{(L)} θ^=fDNN(z)=W(L)σL1(σ1(W(1)z+b(1)))+b(L)

其中 θ^∈RK\hat{\boldsymbol{\theta}} \in \mathbb{R}^{K}θ^RK 为估计的DOA向量(若 KKK 未知,可输出空间谱)。

3.2 模型 B:张量层内嵌神经网络(Tensorized Neural Network, TNN)

将DNN的权重表示为张量,利用低秩或CP结构减少参数量,同时保持阵列数据的几何结构。例如,一个全连接层 y=Wx\mathbf{y} = \mathbf{W} \mathbf{x}y=Wx 替换为张量层

定义 x∈RI1I2⋯IN\mathbf{x} \in \mathbb{R}^{I_1 I_2 \cdots I_N}xRI1I2IN 被重整为张量 X∈RI1×I2×⋯×IN\mathcal{X} \in \mathbb{R}^{I_1 \times I_2 \times \cdots \times I_N}XRI1×I2××IN,权重张量 W∈RJ1×J2×⋯×JM×I1×I2×⋯×IN\mathcal{W} \in \mathbb{R}^{J_1 \times J_2 \times \cdots \times J_M \times I_1 \times I_2 \times \cdots \times I_N}WRJ1×J2××JM×I1×I2××IN 采用CP分解:

W=∑r=1Rλr⋅ur(1)∘⋯∘ur(M)∘vr(1)∘⋯∘vr(N) \mathcal{W} = \sum_{r=1}^{R} \lambda_r \cdot \mathbf{u}_r^{(1)} \circ \cdots \circ \mathbf{u}_r^{(M)} \circ \mathbf{v}_r^{(1)} \circ \cdots \circ \mathbf{v}_r^{(N)} W=r=1Rλrur(1)ur(M)vr(1)vr(N)

输出张量 Y∈RJ1×⋯×JM\mathcal{Y} \in \mathbb{R}^{J_1 \times \cdots \times J_M}YRJ1××JM 的每个元素为

yj1⋯jM=∑i1⋯iN∑r=1Rλr(∏m=1Mur,jm(m))(∏n=1Nvr,in(n))xi1⋯iN y_{j_1 \cdots j_M} = \sum_{i_1 \cdots i_N} \sum_{r=1}^{R} \lambda_r \left( \prod_{m=1}^{M} u_{r, j_m}^{(m)} \right) \left( \prod_{n=1}^{N} v_{r, i_n}^{(n)} \right) x_{i_1 \cdots i_N} yj1jM=i1iNr=1Rλr(m=1Mur,jm(m))(n=1Nvr,in(n))xi1iN

该层参数量从 ∏Jm⋅∏In\prod J_m \cdot \prod I_nJmIn 降至 R(∑In+∑Jm+1)R \left( \sum I_n + \sum J_m + 1 \right)R(In+Jm+1)

应用于阵列:可将阵元空间响应建模为这种张量神经层,隐式嵌入信号模型。

3.3 模型 C:张量递归神经网络(TRNN)用于序列快拍

快拍方向构成时间序列,使用循环神经网络(RNN) 处理,但将RNN的隐状态推广为三阶张量

Ht=σ(Wxh∗Xt+Whh∗Ht−1+B) \mathcal{H}_t = \sigma\left( \mathcal{W}_{xh} \ast \mathcal{X}_t + \mathcal{W}_{hh} \ast \mathcal{H}_{t-1} + \mathcal{B} \right) Ht=σ(WxhXt+WhhHt1+B)

其中 ∗\ast 表示张量模态积(例如 Tucker‑RNN):

Ht=σ(Gx×1Ux×2Xt(2)+Gh×1Uh×2Ht−1(2)+B) \mathcal{H}_t = \sigma\left( \mathcal{G}_x \times_1 \mathbf{U}_x \times_2 \mathbf{X}_t^{(2)} + \mathcal{G}_h \times_1 \mathbf{U}_h \times_2 \mathbf{H}_{t-1}^{(2)} + \mathcal{B} \right) Ht=σ(Gx×1Ux×2Xt(2)+Gh×1Uh×2Ht1(2)+B)

Xt∈RM×Lsub\mathcal{X}_t \in \mathbb{R}^{M \times L_{\mathrm{sub}}}XtRM×Lsub 为第 ttt 个子快拍矩阵,升维为 Xt(2)\mathcal{X}_t^{(2)}Xt(2) 后通过核张量 Gx\mathcal{G}_xGx 与因子矩阵 Ux\mathbf{U}_xUx 交互。输出隐状态 Ht\mathcal{H}_tHt 用于最终角度预测。

4. 损失函数与正则化(张量约束)

训练混合模型时,损失函数可结合传统信号处理先验(如低秩、恒模)作为正则项。

标准MSE损失

LMSE=1T∑t=1T∥θ^t−θt∥22 \mathcal{L}_{\mathrm{MSE}} = \frac{1}{T} \sum_{t=1}^{T} \left\| \hat{\boldsymbol{\theta}}_t - \boldsymbol{\theta}_t \right\|_2^2 LMSE=T1t=1T θ^tθt 22

加入张量低秩正则(对网络权重 W\mathcal{W}W 施加CP低秩约束)

L=LMSE+μ⋅rankCP(W) \mathcal{L} = \mathcal{L}_{\mathrm{MSE}} + \mu \cdot \mathrm{rank}_{\mathrm{CP}}(\mathcal{W}) L=LMSE+μrankCP(W)

实际使用松弛形式(核范数或显式CP参数化):

W=∑r=1Rar(1)∘⋯∘ar(P)⇒L=LMSE+μ∑r=1R∏p=1P∥ar(p)∥22 \mathcal{W} = \sum_{r=1}^{R} \mathbf{a}_r^{(1)} \circ \cdots \circ \mathbf{a}_r^{(P)} \quad \Rightarrow \quad \mathcal{L} = \mathcal{L}_{\mathrm{MSE}} + \mu \sum_{r=1}^{R} \prod_{p=1}^{P} \| \mathbf{a}_r^{(p)} \|_2^2 W=r=1Rar(1)ar(P)L=LMSE+μr=1Rp=1Par(p)22

物理先验正则(如流形结构)在损失中加入流形误差:

L=LMSE+λ∥A(θ^)−ANN(θ^)∥F2 \mathcal{L} = \mathcal{L}_{\mathrm{MSE}} + \lambda \left\| \mathbf{A}(\hat{\boldsymbol{\theta}}) - \mathbf{A}_{\mathrm{NN}}(\hat{\boldsymbol{\theta}}) \right\|_F^2 L=LMSE+λ A(θ^)ANN(θ^) F2

其中 ANN(θ^)\mathbf{A}_{\mathrm{NN}}(\hat{\boldsymbol{\theta}})ANN(θ^) 是网络隐式学习到的阵列响应。

5. 典型阵列信号处理任务公式映射

任务 张量‑DNN模型形式 输出
DOA估计 θ^=fDNN(vec(Y×1U1H⋯ ))\hat{\boldsymbol{\theta}} = f_{\mathrm{DNN}}\left( \mathrm{vec}(\mathcal{Y} \times_1 \mathbf{U}_1^H \cdots) \right)θ^=fDNN(vec(Y×1U1H)) θ^1,…,θ^K\hat{\theta}_1,\dots,\hat{\theta}_Kθ^1,,θ^K
波束形成 w=gDNN(eig(Y(1)Y(1)H))\mathbf{w} = g_{\mathrm{DNN}}\left( \mathrm{eig}(\mathcal{Y}_{(1)} \mathcal{Y}_{(1)}^H) \right)w=gDNN(eig(Y(1)Y(1)H)) 最优权重向量 w∈CM\mathbf{w} \in \mathbb{C}^MwCM
源分离 S^=Y×1W1×2W2\hat{\mathcal{S}} = \mathcal{Y} \times_1 \mathbf{W}_1 \times_2 \mathbf{W}_2S^=Y×1W1×2W2,其中 Wn=hDNN(Y(n))\mathbf{W}_n = h_{\mathrm{DNN}}(\mathcal{Y}_{(n)})Wn=hDNN(Y(n)) 分离信号张量 S^\hat{\mathcal{S}}S^

总结

  • 张量表示保留了阵列信号的多元结构(空间、时间、频率、极化);
  • 深度神经网络提供非线性映射与自动特征提取能力;
  • 三种融合模式:预处理‑DNN张量化网络层张量循环结构
  • 损失函数可显式加入低秩或流形先验,实现模型驱动与数据驱动结合。

这种框架在DOA估计、自适应波束形成、多源分离等阵列任务中具有理论潜力,且能减少网络参数量、提高泛化能力。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐