【全网最强成品论文】2026 长三角数学建模 A题物流网络集包规则及设备优化

★飞翔的企鹅★

307人浏览 · 2026-05-14 11:31:58

★飞翔的企鹅★ · 2026-05-14 11:31:58 发布

🌊 2026 长三角数学建模 A题物流网络集包规则及设备优化

—— 原创手搓·保证唯一·高质量成品范文 ——

🚀 拒绝平庸： 本文由博主深度原创，专注于“应用”而非“糊弄”。每一行代码、每一张图表都经过精心雕琢，确保学术审美与建模深度并存。
⛳️：数模保奖交流，认准我哦

先来看题目：

目前物流公司通过一张大型物流网络完成整体需求的履约,通过线路连接各个分拣中心和终端站点，一个包裹往往需要经历多次分拣中心的中转，才能送达客户手中。包裹进入物流网络后，会生成一条走货路由，规定该包裹如何从出发地，经历多个场地，送达到客户手中。这条走货路由，对于每一个首分拣到末分拣到流向，是唯一确定的。其中分拣中心作为中间的中转环节，包裹需要经历卸车倉堧岔击添梦貸馘址韉陛恍描、集砕奉包、装车过程，最终把货物发送到下一流向中。-------
①卸车
②扫描
③集包
④装车
格口滑槽
条码扫描
导入台
鱀袈长深圳州上海马量青岛广州,南京,西安，济南哈奈木齐
环线分拣机
图1:分拣操作示意图
这里集包操作，是对体积较小的包裹(小件)的操作:将相似走货路由的小件放到集包袋中，集中发运。在物流网络中，不同包裹会在一个分拣中心被放到集包袋中，共同经历一段运输后，在另一个场地分离。一个小件包裹在走货路由!中需要建包操作的分拣中心顺序称为建包路径(如图2所示)，如果中间需要重新将已经集好的集包袋中的包裹重新组合，就需要进行拆包和重新建包操作。确定建包路径是个复杂的决策过程:极端情况下，如果所有包裹只在首分拣建包、末分拣拆包，会导致同一个集包袋中的包裹很少，会占用分拣格口;另一个极端下，如果包裹在每个分拣都反复进行拆包、建包操作，则会占用分拣机的能力。这个问题被称作集包优化问题，即在一个给定的物流网络中，在包裹走货路由下考虑分拣中心产能和设备使用规则，为每个包裹流向选择建包路径，使得全网集问题1 建立货量预测模型，根据附件表2的数据预测每个首-末分拣流向未来7天的小件包裹量，请将预测结果写入结果表1中。
问题2根据问题1输出的结果，确定该物流网络的集包规则，结果需包含每个分拣中心需要集包的流向，请将优化结果写入结果表2中。
问题3 供应商提供了如下几种设备可以购买，设备的信息(包含格口数量，设备产能限制，折旧年限，成本)如附件表4所示。假设货量每年增长20%，请!决策出如果要使未来1年网络总成本最低，每个场地应该投入的设备类型和数量，以及对应的最优集包规则(假设这期间集包规则不发生变化)，并将决策优化得到的设备购置情况、集包规则写入结果表3中。注:当设备产能不足时，可进行人工集包，每人每天最多可以处理5个格口，每人每天工资90 元。

需要最终Word原文+代码的，可以直接拉到文章末尾

📈 成品数据一览表

维度	数据详情	备注
总页数	90页	含详细修改建议
正文权重	70 页	拒绝废话，干货满满
代码行数	5000+行	逻辑清晰，注释完整
试用级别	国家级一等奖	欢迎各位出成绩后监督

💡 为什么选择这份范文？

✅ 硬核手搓： 绝对不是互联网上混子随便引用一大堆模型堆砌出的垃圾内容。
✅ 配套齐全： 不止给范文，更给13页修改说明和降重教程，教你如何举一反三。
✅ 审美在线： 告别低端丑陋的图表排版，本文参考历年获奖论文风格，全部采用学术出版级绘图标准。

成品展示

下面带大家把这道题做出来，本文保证原创，保证高质量、完整，由博主本人手搓写作，绝不是随便引用一大堆模型和代码复制粘贴进来完全没有应用糊弄人的垃圾半成品。更不会用造假的缩略图糊弄大家！

A题范文共90页，一些修改说明13页，正文70页，附录7页，代码5000+行。大家先看范文缩略图，领略一下质量，绝对不是说说而已。

需要最终Word原文+代码的，可以直接拉到文章末尾

在这里插入图片描述

更新汇总：

给大家整理好了资源，可点击领取
我用夸克网盘分享了「成品论文+代码+数据集」，点击链接即可保存。链接：https://pan.quark.cn/s/44eb00986ffb

模型建立与求解

模型建立

符号约定与概率预测范式

考虑由 $K = 92$ 个物流流向构成的货量时序系统。令 $t$ 为离散时间指标，时间窗口总长度为 $T$ 。记第 $t$ 个时间步上全部流向的日货量向量为

$\mathbf{x}_t = (x_{t,1}, x_{t,2}, \dots, x_{t,K})^\top \in \mathbb{R}^{K},$

则整个历史数据集表示为矩阵 $X∈RT×K\mathbf{X} \in \mathbb{R}^{T \times K}$ ，其行对应于时间轴，列对应于空间流向。概率预测的任务是：在给定历史长度 $L$ 的条件下，对未来 $H = 7$ 天的货量进行概率性推断。形式化地，我们寻求条件分布

$P\left(\mathbf{y}_{t+1:t+H} \mid \mathbf{X}_{t-L+1:t}\right),$

其中 $yt+1:t+H=(xt+1,…,xt+H)∈RH×K\mathbf{y}_{t+1:t+H} = (\mathbf{x}_{t+1}, \dots, \mathbf{x}_{t+H}) \in \mathbb{R}^{H \times K}$ 。为在高维输出下保持可计算性，本文对每个流向 $k$ 在每个预测步 $h$ 上独立建模条件分位数函数 $y^t+h,k(τ)\hat{y}^{(\tau)}_{t+h,k}$ ，其中 $τ∈(0,1)\tau \in (0,1)$ 为指定的分位数水平。通过一组覆盖可能性范围的分位数 ${τ1,τ2,…,τQ}\{\tau_1, \tau_2, \dots, \tau_Q\}$ ，我们可以重构预测分布的全貌。

数据预处理：理论基础与严密的数学展开

高质量的概率预测高度依赖于稳健、平滑且尺度一致的输入特征。以下各预处理步骤均从严格的数学公理出发，逐层推导至可执行的数值格式。

异常值检测的 $3σ3\sigma$ 原则与 IQR 法则

在采集与传输链路中，货量序列可能受到传感器噪声、录入失误等干扰，产生与真实物理规律严重偏离的异常点。假设已清洗过的时间窗内某一单变量序列 ${z_i\}_{i=1}^{N}$ 近似服从正态分布 $N(μ,σ2)\mathcal{N}(\mu, \sigma^2)$ ，其总体期望与总体方差未知。由样本给出的无偏估计量为

$\mu = \frac{1}{N}\sum_{i=1}^{N} z_i, \qquad \sigma^2 = \frac{1}{N-1}\sum_{i=1}^{N} (z_i - \mu)^2.$

基于正态分布的概率密度积分，数据偏离期望超过 $3σ3\sigma$ 的概率仅为

$\mu| > 3\sigma) = 2\int_{3\sigma}^{\infty} \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{u^2}{2\sigma^2}} du \approx 0.0027.$

故定义 $3σ3\sigma$ 规则：若 $∣zi−μ∣>3σ|z_i - \mu| > 3\sigma$ ，则标记为异常值，并以缺失值机制处理。对于重尾或偏态明显的货量序列，转而采用不依赖正态假定的 IQR 箱线图法则。记样本的升序统计量为 $z(1)≤z(2)≤⋯≤z(N)z_{(1)} \leq z_{(2)} \leq \cdots \leq z_{(N)}$ ，定义第一四分位数 $Q_1$ 与第三四分位数 $Q_3$ 为

$Q_1 = z_{(\lfloor 0.25(N+1) \rfloor)}, \quad Q_3 = z_{(\lfloor 0.75(N+1) \rfloor)},$

（当位置为小数时进行线性插值）。四分位距 $IQR = Q_3 - Q_1$ 。根据 Tukey 的提议，下围栏与上围栏分别为

$Q_1 - 1.5 \cdot IQR, \qquad UB = Q_3 + 1.5 \cdot IQR.$

任何 $z_i < LB$ 或 $z_i > UB$ 的点均视为异常。

缺失值的线性插值原理

经异常值剔除或直接缺失的时间点，需在保留局部趋势的约束下填补。设某一缺失时刻为 $t$ ，其前后最近的有效观测时刻为 $t_-$ 和 $t_+$ （ $t_- < t < t_+$ ），对应的观测值为 $z_{t_-}$ 与 $z_{t_+}$ 。在光滑性假设下，构造线性近似函数

$z^t=zt−+t−t−t+−t−(zt+−zt−). \hat{z}_t = z_{t_-} + \frac{t - t_-}{t_+ - t_-} (z_{t_+} - z_{t_-}).$

从函数逼近的角度，这等价于在 $t_-, t_+]$ 上寻找一阶多项式最小二乘拟合的唯一解。对于连续缺失序列，亦可利用前后窗进行多段插值或 spline 插值，但线性插值因其计算稳定性与对物流突变保留较好而被采用。

时间特征工程：周期性信号的正交编码

物流货量展现出强烈的周循环、月循环及节假日效应。为将这些先验注入模型，我们构造时间特征映射 $ϕ:Z+→Rdtime\phi: \mathbb{Z}^+ \to \mathbb{R}^{d_{\text{time}}}$ 。设日期时间戳 $t$ 被分解为星期数 $dowt∈{0,1,…,6}dow_t \in \{0,1,\dots,6\}$ 、月份 $mt∈{1,…,12}m_t \in \{1,\dots,12\}$ 和节假日指示变量 $ht∈{0,1}h_t \in \{0,1\}$ 。为避免类别编码带来的序数误导，采用正弦-余弦编码将周期语义投射至连续向量空间：

$\begin{aligned} \phi_{\text{dow}}(t) &= \begin{pmatrix} \sin\left(\frac{2\pi \cdot dow_t}{7}\right) \\ \cos\left(\frac{2\pi \cdot dow_t}{7}\right) \end{pmatrix}, \\[4pt] \phi_{\text{month}}(t) &= \begin{pmatrix} \sin\left(\frac{2\pi \cdot m_t}{12}\right) \\ \cos\left(\frac{2\pi \cdot m_t}{12}\right) \end{pmatrix}, \end{aligned}$

再与节假日指示 $h_t$ 拼接得到时间特征向量 $tt∈R5\mathbf{t}_t \in \mathbb{R}^5$ 。将原始货量向量 $xt\mathbf{x}_t$ 与 $tt\mathbf{t}_t$ 连接，形成增广特征 $x~t=(xt⊤,tt⊤)⊤∈RK+5\tilde{\mathbf{x}}_t = (\mathbf{x}_t^\top, \mathbf{t}_t^\top)^\top \in \mathbb{R}^{K+5}$ 。

窗口标准化：滑动 Z-score 归一化的几何解释

不同流向的货量在量级与波动幅度上差异巨大，直接送入深度学习模型会导致梯度分布严重偏斜。为此采用滑动窗口 Z-score 标准化。对每个流向 $k$ ，取定长为 $W$ 的局部历史窗口 $[t - W + 1, t]$ 。该窗口内的局部均值与标准差定义为

$\mu_{t,k}^{(W)} = \frac{1}{W}\sum_{j=0}^{W-1} \tilde{x}_{t-j,k}, \quad \sigma_{t,k}^{(W)} = \sqrt{\frac{1}{W-1}\sum_{j=0}^{W-1} \left(\tilde{x}_{t-j,k} - \mu_{t,k}^{(W)}\right)^2}.$

则标准化映射 $\mathbb{R} \to \mathbb{R}$ 为

$x^{\text{norm}}_{t,k} = f(\tilde{x}_{t,k}) = \frac{\tilde{x}_{t,k} - \mu_{t,k}^{(W)}}{\sigma_{t,k}^{(W)} + \epsilon},$

其中 $ϵ=10−8\epsilon = 10^{-8}$ 为防止除零的微小常数。从 $RK+5\mathbb{R}^{K+5}$ 空间的几何视角看，该变换将每个特征的分布中心平移至原点，并在各维度上伸缩至单位方差，使得优化过程中的梯度下降方向更接近指向最优点，减少了病态条件数。

时空相似度刻画：动态时间规整距离矩阵

为捕获不同流向之间的时间序列形态相似性与传递滞后，我们引入动态时间规整（DTW）距离并构造时空对齐矩阵。对于两列长度为 $m$ 和 $n$ 的单变量序列 $a=(a1,…,am)⊤\mathbf{a} = (a_1, \dots, a_m)^\top$ 与 $b=(b1,…,bn)⊤\mathbf{b} = (b_1, \dots, b_n)^\top$ ，首先构建局部代价矩阵 $D∈Rm×n\mathbf{D} \in \mathbb{R}^{m \times n}$ ，其中 $D_{i,j} = \|a_i - b_j\|_2$ 。DTW 累计距离矩阵 $C\mathbf{C}$ 通过以下动态规划递归定义：

$\begin{cases} C_{1,1} = D_{1,1}, \\[2pt] C_{i,1} = D_{i,1} + C_{i-1,1}, \quad i = 2, \dots, m, \\[2pt] C_{1,j} = D_{1,j} + C_{1,j-1}, \quad j = 2, \dots, n, \\[2pt] C_{i,j} = D_{i,j} + \min\{C_{i-1,j}, C_{i,j-1}, C_{i-1,j-1}\}, \quad i,j \ge 2. \end{cases}$

最终， $DTW(a,b)=Cm,nDTW(\mathbf{a}, \mathbf{b}) = C_{m,n}$ 。该距离满足非负性和对称性，但不一定满足三角不等式，因而是一种弹性度量，允许序列在时间轴上进行局部伸缩对齐。对 $K$ 个流向依日货量或周聚合序列计算成对 DTW，得到时空对齐矩阵 $ADTW∈RK×K\mathbf{A}_{\text{DTW}} \in \mathbb{R}^{K \times K}$ ，其中 $Aij=DTW(seqi,seqj)A_{ij} = DTW(\text{seq}_i, \text{seq}_j)$ 。为进一步强化几何结构，可将其转换为半正定相似度核 $Sij=exp⁡(−γAij)\mathbf{S}_{ij} = \exp(-\gamma A_{ij})$ 。

由上述热力图可见，很多流向对的自相关系数较高，尤其在靠近主对角线的局部区域展现出明显的带状聚集，揭示了货量序列既包含短周期的强自相关，也存在长程的非平稳依赖。这一结构正是后续 TCN 扩张感受野与注意力机制所要捕捉的核心信息。

概率时序卷积-注意力网络（TCN-Attention）的构建

分位数回归与 Pinball Loss 的数学基础

概率预测的核心是输出完整的条件分布，而不仅仅是条件均值。分位数回归为实现这一目标提供了严密的理论框架。给定真实值 $y$ 与预测值 $y^(τ)\hat{y}^{(\tau)}$ ，第 $τ\tau$ 分位数损失函数定义为

$Lτ(y,y^(τ))={τ(y−y^(τ)),if y≥y^(τ),(1−τ)(y^(τ)−y),if y<y^(τ), L_\tau(y, \hat{y}^{(\tau)}) = \begin{cases} \tau (y - \hat{y}^{(\tau)}), & \text{if } y \ge \hat{y}^{(\tau)}, \\ (1-\tau) (\hat{y}^{(\tau)} - y), & \text{if } y < \hat{y}^{(\tau)}, \end{cases}$

其等价紧凑形式为

$Lτ(y,y^(τ))=(y−y^(τ))(τ−1{y<y^(τ)}). L_\tau(y, \hat{y}^{(\tau)}) = (y - \hat{y}^{(\tau)})(\tau - \mathbf{1}_{\{y < \hat{y}^{(\tau)}\}}).$

可以证明，最小化期望风险 $E[Lτ(Y,y^(τ))]\mathbb{E}[L_\tau(Y, \hat{y}^{(\tau)})]$ 的唯一解就是 $Y$ 的 $τ\tau$ 分位数。换言之，对任意预报值 $y^\hat{y}$ ，一阶最优条件为

$∂∂y^E[Lτ(Y,y^)]=−τP(Y>y^)+(1−τ)P(Y≤y^)=0 ⟹ P(Y≤y^)=τ. \frac{\partial}{\partial \hat{y}} \mathbb{E}[L_\tau(Y, \hat{y})] = -\tau \mathbb{P}(Y > \hat{y}) + (1-\tau)\mathbb{P}(Y \le \hat{y}) = 0 \implies \mathbb{P}(Y \le \hat{y}) = \tau.$

由此，若模型同时输出一组分位数 ${y^(τq)}q=1Q\{\hat{y}^{(\tau_q)}\}_{q=1}^{Q}$ ，则可绘制完整的预测分布函数近似。

TCN 编码器：扩张因果卷积的递推结构

时序模型必须严格遵循因果性，即预测未来不得窥视未来信息。时序卷积网络通过扩张卷积和因果填充在保证因果性的同时，实现了对长距离依赖的高效提取。给定一维输入序列 $X∈RL×d\mathbf{X} \in \mathbb{R}^{L \times d}$ ，设卷积核大小为 $k$ ，扩张因子为 $d_l$ 。第 $l$ 层扩张卷积在时间步 $t$ 的输出定义为

$F_l(t) = \sum_{i=0}^{k-1} \mathbf{W}_{l,i} \, \mathbf{x}_{t - d_l \cdot i} + \mathbf{b}_l,$

其中 $Wl,i∈Rd×dout\mathbf{W}_{l,i} \in \mathbb{R}^{d \times d_{\text{out}}}$ 是作用在输入通道上的权重矩阵， $bl∈Rdout\mathbf{b}_l \in \mathbb{R}^{d_{\text{out}}}$ 为偏置。扩张因子以指数递增 $d_l = 2^{l-1}$ ，使得感受野随层数呈指数级增长。为缓解深层网络退化，每个 TCN 残差块包含两个扩张卷积子层、权重归一化、ReLU激活和 dropout，并通过恒等映射或 $1×11\times1$ 卷积匹配维度：

$\mathbf{H}_{\text{out}} = \text{ReLU}\left(\text{Conv}^{(2)}_{\text{dilated}}\Big(\text{ReLU}\big(\text{Conv}^{(1)}_{\text{dilated}}(\mathbf{H}_{\text{in}})\big)\Big) + \text{Conv}_{\text{skip}}(\mathbf{H}_{\text{in}})\right).$

将 $B$ 个残差块堆叠后，得到时序特征张量 $H∈RL×dh\mathbf{H} \in \mathbb{R}^{L \times d_h}$ ，每一时间步 $t$ 的特征向量 $ht∈Rdh\mathbf{h}_t \in \mathbb{R}^{d_h}$ 编码了自 $t$ 向前的层级上下文。

多头自注意力：流形上的聚焦机制

虽然 TCN 能通过扩张获取广域感受野，但其各时间步的交互仍局限于局部卷积核，缺乏对全局任意两时刻的直接关联能力。为此，我们在 TCN 输出之上嵌入多头自注意力，使模型能够动态加权历史信息。首先，将 $H\mathbf{H}$ 线性投影到查询、键、值三个子空间：

$\mathbf{Q} = \mathbf{H} \mathbf{W}^Q, \quad \mathbf{K} = \mathbf{H} \mathbf{W}^K, \quad \mathbf{V} = \mathbf{H} \mathbf{W}^V,$

其中 $WQ,WK,WV∈Rdh×dk\mathbf{W}^Q, \mathbf{W}^K, \mathbf{W}^V \in \mathbb{R}^{d_h \times d_k}$ ， $d_k$ 为投影维度。缩放点积注意力核定义为

$\text{Attention}(\mathbf{Q}, \mathbf{K}, \mathbf{V}) = \text{softmax}\!\left(\frac{\mathbf{Q} \mathbf{K}^\top}{\sqrt{d_k}}\right) \mathbf{V}.$

除以 $dk\sqrt{d_k}$ 用以抵消点积方差随维度增长的放大效应，防止 softmax 落入饱和区。多头机制通过并行 $h$ 个注意力头，各自关注不同的子空间表示：

$\text{head}_i = \text{Attention}(\mathbf{Q}_i, \mathbf{K}_i, \mathbf{V}_i), \quad i = 1, \dots, h,$

最后将各头输出拼接并再次线性投影：

$\text{MultiHead}(\mathbf{H}) = \left[\text{head}_1; \dots; \text{head}_h\right] \mathbf{W}^O,$

其中 $WO∈Rhdk×dh\mathbf{W}^O \in \mathbb{R}^{h d_k \times d_h}$ 。为确保信息平稳流动并加速收敛，应用残差连接和层归一化：

$\mathbf{C} = \text{LayerNorm}\left(\mathbf{H} + \text{MultiHead}(\mathbf{H})\right).$

得到的上下文矩阵 $C∈RL×dh\mathbf{C} \in \mathbb{R}^{L \times d_h}$ 中，每一个时间步的向量已深度融合了历史全局依赖。

上图中，各注意力头在降维流形上的散点颜色显示了它们对不同历史时间步聚焦模式的差异。部分头对最近几天（短程）赋予极高权重，另一些头则均匀关注较长历史，表明模型既捕捉了周期性趋势，又保留了运输计划中的突发模式。

概率输出层与多分位数预测

预测未来 $H = 7$ 天货量时，我们取最后一个时间步的上下文向量 $cL\mathbf{c}_L$ （也可对全序列做平均池化），将其送入多层全连接网络 $gθ(⋅)g_\theta(\cdot)$ ，为每个预测步 $h$ 和每个流向 $k$ 输出一组预设分位数预测值：

${y^t+h,k(τ1),…,y^t+h,k(τQ)}=gθ(cL;h,k). \{\hat{y}^{(\tau_1)}_{t+h,k}, \dots, \hat{y}^{(\tau_Q)}_{t+h,k}\} = g_\theta(\mathbf{c}_L; h, k).$

实际工程中，模型共享早期隐藏层，仅在最终输出层对不同分位数使用独立权重，或采用分位数预测头共享特征但独立偏置的结构。设全部可训练参数为 $Θ\mathbf{\Theta}$ ，模型优化的目标函数为多分位数 Pinball 损失之和：

$LPinball(Θ)=1HKQ∑h=1H∑k=1K∑q=1QLτq(yt+h,k,y^t+h,k(τq)(Θ)). \mathcal{L}_{\text{Pinball}}(\mathbf{\Theta}) = \frac{1}{H K Q} \sum_{h=1}^{H} \sum_{k=1}^{K} \sum_{q=1}^{Q} L_{\tau_q}\big(y_{t+h,k}, \hat{y}^{(\tau_q)}_{t+h,k}(\mathbf{\Theta})\big).$

模型求解

贝叶斯优化驱动的超参数调优

上述 TCN-Attention 模型涉及大量超参数，如扩张系数、残差块数 $B$ 、注意力头数 $h$ 、Dropout 比例、学习率 $η\eta$ 等，构成高维连续与离散混合搜索空间 $Θ\Theta$ 。手动试错不仅低效，且无法探索参数间复杂的交互效应。本文采用基于树形Parzen估计器的贝叶斯优化算法，在验证集 Pinball Loss 上寻求全局最优配置。

贝叶斯优化的核心是维护一个代理概率模型 $p(L∣θ)p(\mathcal{L} \mid \theta)$ ，以有限次数的昂贵评估指导采样。TPE 不直接建模 $p(L∣θ)p(\mathcal{L} \mid \theta)$ ，而是对参数分布进行非参数密度估计。设定一个损失阈值 $y^*$ （通常为已观测损失中较低的 $γ\gamma$ 分位数），将历史观测数据集 $D={(θi,Li)}i=1n\mathcal{D} = \{(\theta_i, \mathcal{L}_i)\}_{i=1}^{n}$ 划分为两组：“好”组（ $Li<y∗\mathcal{L}_i < y^*$ ）与“差”组（ $Li≥y∗\mathcal{L}_i \ge y^*$ ）。定义

$l(\theta) = p(\theta \mid \mathcal{L} < y^*), \qquad g(\theta) = p(\theta \mid \mathcal{L} \ge y^*),$

分别为好组与差组的参数边缘密度。根据贝叶斯规则，后验概率满足

$p(\mathcal{L} < y^* \mid \theta) = \frac{p(\theta \mid \mathcal{L} < y^*) p(\mathcal{L} < y^*)}{p(\theta)} = \frac{l(\theta) \gamma}{l(\theta) \gamma + g(\theta)(1-\gamma)},$

其中 $γ=p(L<y∗)\gamma = p(\mathcal{L} < y^*)$ 。期望改进量可被证明与比值 $l(θ)/g(θ)l(\theta)/g(\theta)$ 成正比：

$EI_{y^*}(\theta) \propto \left(\gamma + \frac{g(\theta)}{l(\theta)}(1-\gamma)\right)^{-1}.$

因此，TPE 的采集策略是：从 $l(θ)l(\theta)$ 密度中抽取候选点，选择使 $l(θ)/g(θ)l(\theta)/g(\theta)$ 最大化的参数作为下一次昂贵评估的点。 $l(⋅)l(\cdot)$ 和 $g(⋅)g(\cdot)$ 由混合高斯或核密度估计拟合。

时间序列交叉验证

为防止过拟合且尊重时间因果，划分训练与验证时严格按时间顺序。设初始训练集为时段 $T_{\text{train}}]$ ，其后的 $[Ttrain+1,Ttrain+V][T_{\text{train}}+1, T_{\text{train}}+V]$ 作为验证集；随后将窗口向前滑动 $V$ 个时间步，重新训练并在新的验证段评估，共进行 $S$ 折滚动验证。最终的泛化指标为各折验证损失的均值：