张量‑深度神经网络混合模型用于阵列信号处理:一种公式化框架
张量‑深度神经网络混合模型用于阵列信号处理:一种公式化框架
在阵列信号处理(如DOA估计、波束形成、源分离)中,接收数据天然具有多维结构:空间、时间、频率、快拍或极化。引入张量表示可保留高阶关联,进一步与深度神经网络(DNN) 结合,能够学习复杂的非线性映射或隐式正则化。本文给出三种典型融合架构的数学模型。
1. 阵列接收信号的张量模型
考虑一个均匀线性阵列(ULA)有 MMM 个阵元,接收 KKK 个远场窄带信号,LLL 个快拍。传统快拍数据矩阵 Y∈CM×L\mathbf{Y} \in \mathbb{C}^{M \times L}Y∈CM×L 为
Y=A(θ)S+N \mathbf{Y} = \mathbf{A}(\boldsymbol{\theta}) \mathbf{S} + \mathbf{N} Y=A(θ)S+N
其中 A(θ)∈CM×K\mathbf{A}(\boldsymbol{\theta}) \in \mathbb{C}^{M \times K}A(θ)∈CM×K 为流形矩阵,S∈CK×L\mathbf{S} \in \mathbb{C}^{K \times L}S∈CK×L 为信号波形,N\mathbf{N}N 为噪声。
为引入张量结构,可构建三阶张量 Y∈CM×L×Q\mathcal{Y} \in \mathbb{C}^{M \times L \times Q}Y∈CM×L×Q(例如:QQQ 个频点、或 QQQ 个脉冲、或利用极化多样性):
Y=A×2S+N \mathcal{Y} = \mathcal{A} \times_2 \mathbf{S} + \mathcal{N} Y=A×2S+N
更一般的四阶张量(阵元 × 快拍 × 频率 × 极化):
Y(m,l,f,p)=∑k=1Kam(θk) sl,k ϕf(θk) ψp(θk)+N(m,l,f,p) \mathcal{Y}(m, l, f, p) = \sum_{k=1}^{K} a_m(\theta_k) \, s_{l,k} \, \phi_f(\theta_k) \, \psi_p(\theta_k) + \mathcal{N}(m,l,f,p) Y(m,l,f,p)=k=1∑Kam(θk)sl,kϕf(θk)ψp(θk)+N(m,l,f,p)
其中 am(θk)a_m(\theta_k)am(θk) 为空间响应,sl,ks_{l,k}sl,k 为快拍波形,ϕf(θk)\phi_f(\theta_k)ϕf(θk) 为频域响应,ψp(θk)\psi_p(\theta_k)ψp(θk) 为极化响应。
2. 深度神经网络模块的基本定义
记一个 LLL 层前馈神经网络为
h(0)=x,h(ℓ)=σℓ(W(ℓ)h(ℓ−1)+b(ℓ)),y^=h(L) \mathbf{h}^{(0)} = \mathbf{x}, \quad \mathbf{h}^{(\ell)} = \sigma_{\ell}\left( \mathbf{W}^{(\ell)} \mathbf{h}^{(\ell-1)} + \mathbf{b}^{(\ell)} \right), \quad \hat{\mathbf{y}} = \mathbf{h}^{(L)} h(0)=x,h(ℓ)=σℓ(W(ℓ)h(ℓ−1)+b(ℓ)),y^=h(L)
其中 W(ℓ)\mathbf{W}^{(\ell)}W(ℓ) 为权重,b(ℓ)\mathbf{b}^{(\ell)}b(ℓ) 为偏置,σℓ\sigma_{\ell}σℓ 为激活函数(如ReLU、Tanh)。对于张量输入,需进行向量化或使用张量层。
3. 混合模型架构
3.1 模型 A:张量预处理 + 深度神经网络(T‑DNN)
接收张量 Y\mathcal{Y}Y 首先经过张量收缩或特征提取,得到一个低维特征向量 z\mathbf{z}z,再输入DNN完成最终估计(如DOA角度)。
步骤1:张量预处理(典型:Tucker压缩或CP特征)
-
Tucker压缩:
G=Y×1U1H×2U2H×3U3H \mathcal{G} = \mathcal{Y} \times_1 \mathbf{U}_1^H \times_2 \mathbf{U}_2^H \times_3 \mathbf{U}_3^H G=Y×1U1H×2U2H×3U3H
取核张量 G\mathcal{G}G 并向量化:z=vec(G)∈CR1R2R3\mathbf{z} = \mathrm{vec}(\mathcal{G}) \in \mathbb{C}^{R_1 R_2 R_3}z=vec(G)∈CR1R2R3。 -
CP特征:将 Y\mathcal{Y}Y 的CP分解的因子矩阵拼接:
z=[vec(A(1))⊤,vec(A(2))⊤,vec(A(3))⊤]⊤ \mathbf{z} = \left[ \mathrm{vec}(\mathbf{A}^{(1)})^\top, \mathrm{vec}(\mathbf{A}^{(2)})^\top, \mathrm{vec}(\mathbf{A}^{(3)})^\top \right]^\top z=[vec(A(1))⊤,vec(A(2))⊤,vec(A(3))⊤]⊤
步骤2:DNN映射
θ^=fDNN(z)=W(L)σL−1(⋯σ1(W(1)z+b(1))⋯)+b(L) \hat{\boldsymbol{\theta}} = f_{\mathrm{DNN}}(\mathbf{z}) = \mathbf{W}^{(L)} \sigma_{L-1}\big( \cdots \sigma_1(\mathbf{W}^{(1)}\mathbf{z} + \mathbf{b}^{(1)}) \cdots \big) + \mathbf{b}^{(L)} θ^=fDNN(z)=W(L)σL−1(⋯σ1(W(1)z+b(1))⋯)+b(L)
其中 θ^∈RK\hat{\boldsymbol{\theta}} \in \mathbb{R}^{K}θ^∈RK 为估计的DOA向量(若 KKK 未知,可输出空间谱)。
3.2 模型 B:张量层内嵌神经网络(Tensorized Neural Network, TNN)
将DNN的权重表示为张量,利用低秩或CP结构减少参数量,同时保持阵列数据的几何结构。例如,一个全连接层 y=Wx\mathbf{y} = \mathbf{W} \mathbf{x}y=Wx 替换为张量层:
定义 x∈RI1I2⋯IN\mathbf{x} \in \mathbb{R}^{I_1 I_2 \cdots I_N}x∈RI1I2⋯IN 被重整为张量 X∈RI1×I2×⋯×IN\mathcal{X} \in \mathbb{R}^{I_1 \times I_2 \times \cdots \times I_N}X∈RI1×I2×⋯×IN,权重张量 W∈RJ1×J2×⋯×JM×I1×I2×⋯×IN\mathcal{W} \in \mathbb{R}^{J_1 \times J_2 \times \cdots \times J_M \times I_1 \times I_2 \times \cdots \times I_N}W∈RJ1×J2×⋯×JM×I1×I2×⋯×IN 采用CP分解:
W=∑r=1Rλr⋅ur(1)∘⋯∘ur(M)∘vr(1)∘⋯∘vr(N) \mathcal{W} = \sum_{r=1}^{R} \lambda_r \cdot \mathbf{u}_r^{(1)} \circ \cdots \circ \mathbf{u}_r^{(M)} \circ \mathbf{v}_r^{(1)} \circ \cdots \circ \mathbf{v}_r^{(N)} W=r=1∑Rλr⋅ur(1)∘⋯∘ur(M)∘vr(1)∘⋯∘vr(N)
输出张量 Y∈RJ1×⋯×JM\mathcal{Y} \in \mathbb{R}^{J_1 \times \cdots \times J_M}Y∈RJ1×⋯×JM 的每个元素为
yj1⋯jM=∑i1⋯iN∑r=1Rλr(∏m=1Mur,jm(m))(∏n=1Nvr,in(n))xi1⋯iN y_{j_1 \cdots j_M} = \sum_{i_1 \cdots i_N} \sum_{r=1}^{R} \lambda_r \left( \prod_{m=1}^{M} u_{r, j_m}^{(m)} \right) \left( \prod_{n=1}^{N} v_{r, i_n}^{(n)} \right) x_{i_1 \cdots i_N} yj1⋯jM=i1⋯iN∑r=1∑Rλr(m=1∏Mur,jm(m))(n=1∏Nvr,in(n))xi1⋯iN
该层参数量从 ∏Jm⋅∏In\prod J_m \cdot \prod I_n∏Jm⋅∏In 降至 R(∑In+∑Jm+1)R \left( \sum I_n + \sum J_m + 1 \right)R(∑In+∑Jm+1)。
应用于阵列:可将阵元空间响应建模为这种张量神经层,隐式嵌入信号模型。
3.3 模型 C:张量递归神经网络(TRNN)用于序列快拍
快拍方向构成时间序列,使用循环神经网络(RNN) 处理,但将RNN的隐状态推广为三阶张量:
Ht=σ(Wxh∗Xt+Whh∗Ht−1+B) \mathcal{H}_t = \sigma\left( \mathcal{W}_{xh} \ast \mathcal{X}_t + \mathcal{W}_{hh} \ast \mathcal{H}_{t-1} + \mathcal{B} \right) Ht=σ(Wxh∗Xt+Whh∗Ht−1+B)
其中 ∗\ast∗ 表示张量模态积(例如 Tucker‑RNN):
Ht=σ(Gx×1Ux×2Xt(2)+Gh×1Uh×2Ht−1(2)+B) \mathcal{H}_t = \sigma\left( \mathcal{G}_x \times_1 \mathbf{U}_x \times_2 \mathbf{X}_t^{(2)} + \mathcal{G}_h \times_1 \mathbf{U}_h \times_2 \mathbf{H}_{t-1}^{(2)} + \mathcal{B} \right) Ht=σ(Gx×1Ux×2Xt(2)+Gh×1Uh×2Ht−1(2)+B)
Xt∈RM×Lsub\mathcal{X}_t \in \mathbb{R}^{M \times L_{\mathrm{sub}}}Xt∈RM×Lsub 为第 ttt 个子快拍矩阵,升维为 Xt(2)\mathcal{X}_t^{(2)}Xt(2) 后通过核张量 Gx\mathcal{G}_xGx 与因子矩阵 Ux\mathbf{U}_xUx 交互。输出隐状态 Ht\mathcal{H}_tHt 用于最终角度预测。
4. 损失函数与正则化(张量约束)
训练混合模型时,损失函数可结合传统信号处理先验(如低秩、恒模)作为正则项。
标准MSE损失:
LMSE=1T∑t=1T∥θ^t−θt∥22 \mathcal{L}_{\mathrm{MSE}} = \frac{1}{T} \sum_{t=1}^{T} \left\| \hat{\boldsymbol{\theta}}_t - \boldsymbol{\theta}_t \right\|_2^2 LMSE=T1t=1∑T θ^t−θt 22
加入张量低秩正则(对网络权重 W\mathcal{W}W 施加CP低秩约束):
L=LMSE+μ⋅rankCP(W) \mathcal{L} = \mathcal{L}_{\mathrm{MSE}} + \mu \cdot \mathrm{rank}_{\mathrm{CP}}(\mathcal{W}) L=LMSE+μ⋅rankCP(W)
实际使用松弛形式(核范数或显式CP参数化):
W=∑r=1Rar(1)∘⋯∘ar(P)⇒L=LMSE+μ∑r=1R∏p=1P∥ar(p)∥22 \mathcal{W} = \sum_{r=1}^{R} \mathbf{a}_r^{(1)} \circ \cdots \circ \mathbf{a}_r^{(P)} \quad \Rightarrow \quad \mathcal{L} = \mathcal{L}_{\mathrm{MSE}} + \mu \sum_{r=1}^{R} \prod_{p=1}^{P} \| \mathbf{a}_r^{(p)} \|_2^2 W=r=1∑Rar(1)∘⋯∘ar(P)⇒L=LMSE+μr=1∑Rp=1∏P∥ar(p)∥22
物理先验正则(如流形结构)在损失中加入流形误差:
L=LMSE+λ∥A(θ^)−ANN(θ^)∥F2 \mathcal{L} = \mathcal{L}_{\mathrm{MSE}} + \lambda \left\| \mathbf{A}(\hat{\boldsymbol{\theta}}) - \mathbf{A}_{\mathrm{NN}}(\hat{\boldsymbol{\theta}}) \right\|_F^2 L=LMSE+λ A(θ^)−ANN(θ^) F2
其中 ANN(θ^)\mathbf{A}_{\mathrm{NN}}(\hat{\boldsymbol{\theta}})ANN(θ^) 是网络隐式学习到的阵列响应。
5. 典型阵列信号处理任务公式映射
| 任务 | 张量‑DNN模型形式 | 输出 |
|---|---|---|
| DOA估计 | θ^=fDNN(vec(Y×1U1H⋯ ))\hat{\boldsymbol{\theta}} = f_{\mathrm{DNN}}\left( \mathrm{vec}(\mathcal{Y} \times_1 \mathbf{U}_1^H \cdots) \right)θ^=fDNN(vec(Y×1U1H⋯)) | θ^1,…,θ^K\hat{\theta}_1,\dots,\hat{\theta}_Kθ^1,…,θ^K |
| 波束形成 | w=gDNN(eig(Y(1)Y(1)H))\mathbf{w} = g_{\mathrm{DNN}}\left( \mathrm{eig}(\mathcal{Y}_{(1)} \mathcal{Y}_{(1)}^H) \right)w=gDNN(eig(Y(1)Y(1)H)) | 最优权重向量 w∈CM\mathbf{w} \in \mathbb{C}^Mw∈CM |
| 源分离 | S^=Y×1W1×2W2\hat{\mathcal{S}} = \mathcal{Y} \times_1 \mathbf{W}_1 \times_2 \mathbf{W}_2S^=Y×1W1×2W2,其中 Wn=hDNN(Y(n))\mathbf{W}_n = h_{\mathrm{DNN}}(\mathcal{Y}_{(n)})Wn=hDNN(Y(n)) | 分离信号张量 S^\hat{\mathcal{S}}S^ |
总结
- 张量表示保留了阵列信号的多元结构(空间、时间、频率、极化);
- 深度神经网络提供非线性映射与自动特征提取能力;
- 三种融合模式:预处理‑DNN、张量化网络层、张量循环结构;
- 损失函数可显式加入低秩或流形先验,实现模型驱动与数据驱动结合。
这种框架在DOA估计、自适应波束形成、多源分离等阵列任务中具有理论潜力,且能减少网络参数量、提高泛化能力。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)