HyFormer：重新审视序列建模和特征交互在 CTR 预测中的作用(一)

工业大规模推荐模型（LRM）面临着在严格的效率约束下联合建模远程用户行为序列和异构非序列特征的挑战。然而，大多数现有架构采用解耦管道：长序列首先使用基于查询 Token 的序列压缩器（如 LONGER）进行压缩，然后通过 Token 混合模块（如 RankMixer）与密集特征融合，从而限制了表示能力和交互灵活性。本文提出了HyFormer，这是一种统一的混合 Transformer 架构，它将长序列建模和特征交互紧密集成到单个主干中。从序列建模的角度来看，我们重新审视和设计了LRM中的查询 Token ，并将LRM建模任务框架为一个集成了两个核心组件的交替优化过程：查询解码将非序列特征扩展为全局 Token ，并对长行为序列的逐层键值表示执行长序列解码； 查询提升，通过高效的 Token 混合增强跨查询和跨序列异构交互。这两种互补机制迭代执行，以细化跨层的语义表示。对数十亿规模的工业数据集进行的大量实验表明，在相当的参数和 FLOP 预算下，HyFormer 始终优于强大的 LONGER 和 RankMixer 基线，同时随着参数和 FLOP 的增加而表现出卓越的扩展行为。高流量生产系统中的大规模在线 A/B 测试进一步验证了其有效性，显示出比部署的最先进模型的显着收益。这些结果凸显了 HyFormer 作为工业 LRM 统一建模框架的实用性和可扩展性。

1. 介绍

现代工业大规模推荐模型（LRM）在日益复杂的环境中运行，其中准确的预测依赖于对远程用户行为历史和丰富的异构特征（包括用户配置文件、上下文信号和交叉特征）的联合建模。随着用户参与度在较长时间范围内增长以及特征空间不断扩展，有效地将长序列信号与高维非序列信息集成已成为大规模推荐和搜索系统的核心挑战。为了应对这一挑战，最近的工业架构主要集中在一种分离的扩展范式上，该范式将长序列建模（Xu等人，2025a；Zivic等人，2024；Borisyuk等人，2024）与特征交互（Gui等人，2023；Yu等人， 2025；徐等人，2025b；Khrylchenko 等人，2025）。在此范例中，长用户行为序列由专用序列转换器进行编码，以捕获时间依赖性和用户兴趣，并且压缩序列 Token 通过 Token 混合或交互模块与其他异构特征混合，以实现跨特征推理。这种“长序列建模，然后异构特征交互”流程已被证明是有效的，并已成为扩大现代工业 LRM 规模的主要设计选择。尽管实证表现很强，但这种流行的范式从根本上强制执行压缩的、后期融合的和单向的交互模式。随着序列长度和模型容量的不断增加，这种两阶段设计揭示了限制建模表现力和可扩展性的基本限制。

•
现有架构中的序列转换器在序列压缩过程中通常依赖于过于简化的查询表示（周等人，2018，2019；冯等人，2019）。在实践中，用于聚合长行为序列的查询标记通常源自候选相关或全局特征的有限子集，这限制了在对长期用户兴趣进行建模时可以利用的上下文信息量。然而，直接增加查询 Token 的数量会导致 KV-Cache 和 M-Falcon 机制下的服务效率显着下降（Zhai 等人，2024b；Chai 等人，2025）。
•
序列压缩 Token 和异构非序列 Token 之间的交互通常仅发生在模型的后期阶段。在当前范例下，跨特征推理被推迟到序列压缩之后，导致不同标记类型之间浅层和隐式的交互。这种延迟融合限制了模型捕获跨多个行为序列和异构特征组的细粒度依赖关系的能力，并阻止早期层表示从跨域上下文信息中受益。
•
由于交互模块仅对压缩序列表示进行操作，因此增加模型容量或序列长度主要改善孤立组件，而不是增强联合表示。因此，扩大深度或参数会导致较低的缩放效率，相对于额外的计算预算，性能改进的速度会较慢，因为计算不能有效地转化为更丰富的联合表示。

这些限制促使我们重新思考如何集成远程序列建模和异构特征交互。需要一个统一的建模框架来实现顺序信号和非顺序信号之间更深入、更早和双向的交互，而不是将序列编码和 Token 混合视为两个松散耦合的阶段。

在本文中，我们提出了HyFormer，一种混合 Transformer 架构，它将序列建模和特征交互统一在一个主干内。 HyFormer 引入了一组全局标记，用作长行为序列和异构特征之间的共享语义接口。通过堆叠设计，HyFormer 在两种轻量级但富有表现力的机制之间交替。 查询解码模块使用全局查询标记来参与长行为序列的分层键值表示，从而允许全局上下文直接塑造序列表示。 查询提升模块通过高效的 Token 混合进一步加强跨查询和跨序列交互，逐步丰富跨层的语义表示。这种设计实现了序列建模和特征交互组件之间的双向信息流，克服了传统解耦管道的局限性。对数十亿规模工业数据集的大量实验表明，在可比较的参数和 FLOPs 预算下，HyFormer 始终优于基于序列和 Token 混合的强大基线。此外，HyFormer 在模型 FLOP 和参数方面表现出卓越的扩展行为，并在高流量生产系统中部署的大规模在线 A/B 测试中取得了显着的成果。

综上所述，本文做出以下贡献：

我们确定了大规模工业推荐系统中流行的解耦序列建模和特征交互范式的基本局限性，并分析了其单向和后期融合设计如何限制建模能力和可扩展性。
我们提出了 HyFormer，这是一种统一的混合 Transformer 架构，可通过查询解码和查询提升实现远程行为序列和异构特征之间的双向、分层交互，从而在现实工业环境中实现最先进的性能和可扩展性。
我们凭经验验证了所提出的模型在十亿规模工业数据集上的有效性及其优越的扩展性能。目前，HyFormer已在字节跳动全面部署，每天服务数十亿用户。

2. 相关工作

2.1. 传统推荐范式

现代工业 LRM 通常基于两个主要组件构建：行为序列建模和特征交互网络。在这种范式中，用户行为历史首先由专用序列模型编码，然后由下游交互模块与异构非序列特征一起使用其输出。最近的工业系统已经沿着这个方向大大提高了序列建模的可扩展性。 SIM (Qi 等人, 2020)、ETA (Chen 等人, 2022)、TWIN (Chang 等人, 2023; Si 等人, 2024)、TransAct (Xia 等人, 2023)、LONGER 等方法（Chai 等人，2025）通过高效的注意力机制、分层聚合、KV 缓存和服务友好的设计，将序列编码器扩展到数百或数千个事件。这些工作展示了在大规模流量下对远程用户行为进行建模时明显的幂律缩放趋势，同时在很大程度上保留了将序列编码与特征交互解耦的两阶段架构。

在特征交互方面，早期模型如 DeepFM(Guo 等人, 2017)、xDeepFM(Lian 等人, 2018) 和 DCNv2(Wang 等人, 2021) 对低阶或有界度特征交叉进行大规模建模，但随着交互深度的增加，收益递减。最近的扩展研究，如 Wukong（Zhang 等人，2024）和 RankMixer（Zhu 等人，2025）强调跨模块扩展成为工业绩效的关键驱动因素。这些模型代表了大规模特征交互设计的当前状态，但交互堆栈和序列编码器在大多数生产管道中仍然松散耦合，导致后期融合并阻止跨异构信号的统一优化。

2.2. 统一推荐架构

为了减少序列建模和特征交互之间的碎片，最近的研究探索了在单个主干内处理异构信号的统一架构。诸如 HSTU（Zhai 等人，2024a）之类的分层生成架构通过根据上下文和候选信号执行序列转导来表示统一的推荐范式。 InterFormer(Zeng 等人, 2025) 通过引入可学习的交互 Token 来实现双向信号交换，从而弥合了序列编码器和交互网络之间的差距。 MTGR (Han 等人, 2025) 通过将用户、行为、实时和候选特征重新组织为异构标记并使用共享的 Transformer 式主干对其进行编码，进一步推动统一，从而使序列信息和交叉特征能够连贯地建模。继 MTGR 之后，OneTrans(Zhang 等人, 2025)也有类似的方向，即使用单个 Transformer 共同捕获序列依赖性和高阶特征交互，同时以金字塔压缩方式简化 Transformer 结构。与MTGR相比，这项工作可以看作是一个简化版本。

由于 MTGR(Han 等人, 2025) 和 OneTrans(Zhang 等人, 2025) 只是将查询标记的数量增加为所有非序列标记的数量，因此在实践中很容易观察到服务效率的显着下降（参见第 4 节）。此外，在工业规模的LRM中，用于建模特征交互的统一 Transformer 结构通常是不够的（Zhu等人，2025）。总体而言，统一架构代表着朝着解决序列模型和特征交互堆栈之间长期存在的分离迈出的一步，尽管以最小的架构开销实现完全统一仍然是一个开放的挑战。

Refer to caption

图 1。所提议的 HyFormer 架构概述。新架构在序列建模中引入了源自原始“候选项”的全局 Token ，并通过基于 MLP-Mixer 的特征交互来提高长序列的查询能力，从而重新审视长序列建模和特征交互的作用。它将 LRM 建模任务构建为通过查询解码和查询提升模块交替的交替优化过程。

3. 方法论

3.1. 问题陈述

让 𝒰 和 ℐ 表示用户和项目空间。对于用户 u∈𝒰，将每个 it(u)∈ℐ 的原始行为历史记录表示为 S=[i1(u),…,iK(u)]，并让 u 表示伴随的非顺序描述符，例如配置文件属性、上下文信号和交叉特征。给定候选项目 v∈ℐ，目标是估计用户 u 与项目 v 互动的概率：

(1)

P(y=1∣S,u,v)∈[0,1],

其中y∈{0,1}表示交互是否发生。

通过最小化标准二元交叉熵目标，从历史数据 𝒟={(S,u,v,y)} 中学习模型参数：

(2)

ℒ=−1|𝒟|∑(S,u,v,y)∈𝒟[ylog⁡y^+(1−y)log⁡(1−y^)],

其中 y^=fθ(S,u,v) 表示 LRM 生成的预测交战概率。

3.2. 总体框架

传统的LRM架构一般采用流水线设计，先进行LONGER（柴等人，2025）等序列建模，然后使用包含压缩序列信息的查询标记进行子序列特征交互，如RankMixer（朱等人，2025）。如前所述，这种单独的管道通常会导致序列建模和异构特征交互的建模不足。为了克服这一限制，这项工作提出了一个统一的混合框架，通过一堆 HyFormer 层对非序列 (NS) Token 和长行为序列进行联合建模。

HyFormer的整体架构如图1所示。如图所示，每个 HyFormer 层都集成了两种互补机制：（1）查询解码，通过基于 MLP 的查询生成将非序列和序列特征扩展为多个语义全局标记（即序列查询），并对长序列 K/V 对进行交叉关注，使全局信息能够直接塑造序列标记的表示； (2)查询提升，它应用 MLP-Mixer 风格的 Token 混合来加强解码查询和非序列 Token 之间的交互。

通过将全局异构特征混合与高效的长序列建模紧密耦合，与现有的单独的流水线架构相比，所提出的框架实现了更丰富的异构交互、更深入的序列结构利用以及更有利的性能和计算成本。

3.3. 查询生成

3.3.1. 输入标记化

遵循RankMixer（朱等人，2025）中的标记化策略，输入标记可以通过语义分组或自动拆分来组织。语义分组根据 Token 的内在含义（例如，用户、上下文或行为语义）对 Token 进行分区，而自动分割将所有特征展平为单个嵌入，并应用统一分割，而无需明确的语义区别。在实践中，考虑到我们设置中输入特征的明确语义角色，HyFormer 采用语义分组来保留结构化归纳偏差并提高可解释性。

3.3.2. 查询生成

查询生成模块将异构非序列特征转换为用于解码长行为序列的语义查询标记。所有非序列特征向量F1,F2,…,FM∈ℝ1×D都通过轻量级前馈网络连接和映射。此外，通过对行为序列表示进行池化获得全局序列级摘要，并将其视为附加的共享输入，类似于非序列特征。

查询是通过轻量级投影将非序列特征与池化序列摘要相结合来生成的：

(3)

Q=[FFN1(GlobalInfo),…,FFNN(GlobalInfo)]∈ℝN×D,

在哪里

(4)

GlobalInfo=Concat(F1,…,FM,MeanPool(Seq)).

为了保持服务效率，该模块支持特征选择和可选的查询压缩，保持生成的查询数量稳定，同时为下游解码保留足够的表示能力。

在更深的 HyFormer 层中，查询不会通过 MLP 重新生成。相反，每一层都重用前一层的查询，有效地使用更深层次的交叉注意力输出作为更新的查询，以逐渐丰富的语义来询问长序列。

3.4. 查询解码

查询解码模块负责将非序列特征转换为语义查询，并通过交叉注意力从长行为序列中提取目标感知信息。利用序列表示编码模块生成的长序列的逐层键值表示，查询解码模块通过多查询交叉注意机制使用来自查询生成模块的多个查询标记来解码 K/V 表示。

3.4.1. 序列表示编码

HyFormer 支持具有不同容量效率权衡的多种序列编码策略。给定行为序列S，每个策略都会生成分层键值表示(Kl(s),Vl(s))以供后续解码。

(i) 完整 Transformer 编码（Vaswani 等人，2017）。 在最高建模能力下，应用标准 Transformer 编码器：

(5)

Hl=TransformerEncl(S),

它通过完全的自注意力捕获细粒度的交互和远程依赖关系。

(ii) LONGER (Chai 等人, 2025) 式高效编码。 为了提高长序列的效率，完整的自注意力被紧凑的短序列和完整历史之间的交叉注意力所取代：

(6)

Hl=CrossAttn(Sshort,S,S),

其中 Sshort 是长度为 LH≪LS 的紧凑短序列。这里，Sshort用作查询，而S用作键和值。该公式取代了完全的自注意力，并将计算复杂度从 𝒪(LS2) 降低到 𝒪(LHLS)。

(iii) 解码器式轻量级编码。 对于延迟关键场景，使用无注意力前馈操作来转换序列表示：

(7)

Hl=SwiGLUl(S),

以最小的计算成本交换上下文容量。

在所有变体中，结果表示被线性投影以获得特定于层的键值状态：

(8)

Kl=HlWlK,Vl=HlWlV.

键值状态在每一层重新计算，允许序列特征与解码器深度共同演化，同时支持灵活的部署配置。

3.4.2. 通过交叉注意力进行查询解码

给定特定于序列的查询标记和相应的分层键值表示，HyFormer 通过交叉注意力执行查询解码。对于l层的每个行为序列S，解码后的查询表示形式如下：

(9)

Q~(l)=CrossAttn(Q(l),K(l),V(l)),

其中CrossAttn(⋅)表示标准的多头交叉注意操作，Q(l)∈ℝN×D表示层l使用的查询标记。

此解码步骤允许全局非序列特征直接参与长行为序列，将上下文信号注入序列感知查询表示中。解码后的查询 Q~(l) 然后用作后续交互和提升模块的语义接口。

3.5. 查询提升

查询提升模块在将查询表示馈送到后续交叉注意层之前增强查询表示。解码步骤之后，查询已经对序列感知信息进行编码，但它们与静态非序列异构特征的交互仍未得到充分探索。查询提升通过在查询标记之间显式混合信息并注入额外的非序列特征信号来解决此限制。

通过解码输出，统一查询表示定义为

(10)

Q=[Q~(l),F1,…,FM]∈ℝT×D,

其中T=N+M,Q~(l)∈ℝN×D表示在l层获得的解码查询 Token 集，其余M Token 对应于非顺序特征嵌入。

具体来说，Boosting 模块应用受 RankMixer (Zhu 等人，2025) 启发的 MLP-Mixer 式 (Tolstikhin 等人，2021) 轻量级 Token 混合操作来丰富解码的查询。每个查询 Token qt∈Q 首先被划分为 T 通道子空间：

(11)

qt=[qt(1)‖qt(2)‖⋯∥qt(T)],qt(h)∈ℝD/T.

对于每个子空间索引 h∈{1,…,T}，MLP-Mixer 通过连接相应的子空间来聚合来自所有标记位置的信息：

(12)

q~h=Concat(q1(h),q2(h),…,qT(h))∈ℝD.

收集所有混合 Token 会产生 Token 混合表示

(13)

Q^=[q~1,q~2,…,q~T]∈ℝT×D.

混合查询通过轻量级的每个 Token 前馈模块进一步细化：

(14)

Q~=PerToken-FFN(Q^),

其中 PerToken-FFN(⋅) 对每个查询标记应用独立的前馈变换，从而实现特定于子空间的细化，同时保留线性计算复杂性。

最后，应用残差连接来稳定优化并保留原始解码语义：

(15)

Qboost=Q+Q~.

然后，增强的查询被传递到下一个 HyFormer 层，允许更深的层以逐渐更丰富和更具表现力的表示来询问长行为序列。

3.6. HyFormer 模块

HyFormer 模块是通过堆叠多个层构建的，每个层由一个 Query Decoding 块和后面的一个 Query Boosting 块组成。在每一层，语义查询通过交叉注意力与长行为序列交互，并且生成的序列感知表示被进一步细化，以作为更深层的输入。

正式地，在层l，查询解码块接受传入的全局查询Q(l−1)并对从长序列派生的逐层键值表示(K(l),V(l))执行交叉注意：

(16)

Q^(l)=CrossAttn(Q(l−1),K(l),V(l)).

然后，解码后的查询 Q^(l) 与非顺序标记连接并传递到查询提升块，该块应用轻量级标记方式转换来丰富查询表示：

(17)

Q~(l)=QueryBoost(Concat(Q^(l),NSTokens)),

通过堆叠多个此类层，HyFormer 逐步细化语义查询，使更深的层能够通过越来越富有表现力的表示来抽象长序列。顶层 HyFormer 层的输出被输入下游 MLP 进行最终预测，从而实现异构非序列特征与 LRM 中长行为序列的高效灵活集成。

3.7. 多序列建模

Refer to caption

图 2。HyFormer 中的多序列建模。

在工业推荐场景中，用户行为往往被组织为多个异构序列，例如视频观看序列、产品购买序列。由于实际的多序列通常具有不同的特征空间和语义表示，我们凭经验发现MTGR（Han等人，2025）或OneTrans（Zhang等人，2025）采用的简单序列合并会导致性能显着下降（参见第4节）。因此，HyFormer 不是将不同的序列合并到单个统一流中，而是在每个 HyFormer 块中独立处理每个行为序列，以提高效率和效果。如图2所示，对于每个序列，构建一组专用的查询标记并用于对相应的序列表示执行查询解码。这种设计在解码过程中保留了特定于序列的语义，同时允许稍后通过查询级 Token 混合来处理跨序列交互，而不需要显式序列串联。

3.8. 培训和部署优化

3.8.1. 用于长序列的 GPU 池化。

用户长序列特征可能非常大，从而导致显着的数据传输开销（例如，主机到设备的内存复制）以及主机上的高内存压力。幸运的是，此类序列中真正唯一的特征 ID 的数量是有限的（通常占 Token 总数的 25%）。我们利用这种稀疏性来删除重复特征，从而大大降低传输成本和主机内存占用。具体来说，在图执行之前，特征存储在压缩的嵌入表中。在执行过程中，我们构建了一个高性能前向算子，可以直接在 GPU 上重建原始序列特征。在向后传递中，伴随的向后运算符将序列特征的梯度聚合为嵌入表的梯度。然后将这些梯度向上游传播以更新稀疏参数。

3.8.2. 异步AllReduce

为了减少同步梯度聚合带来的空闲时间，系统启用了异步AllReduce，允许步骤k的梯度同步与步骤k+1的前向和后向计算重叠。这种设计有效地消除了通信气泡并最大限度地提高了 GPU 利用率。然而，代价是为稠密参数引入了一步过时性：由于它们的梯度仅在异步归约完成后才可用，因此更新规则变为 Wk=Wk−1+gk−1 ，表明步骤 k 中的稠密参数使用上一步的梯度。相反，稀疏参数可以在计算局部梯度后立即更新，产生 Wk=Wk−1+gk ，从而有效地领先于密集参数更新一步。尽管这种混合更新计划在密集和稀疏参数状态之间引入了小程度的时间不一致，但经验结果表明，这种陈旧性在实践中不会降低收敛质量或模型性能。

4. 实验

表 1。工业数据集的整体表现

Sequence Modeling	Feature Interaction	AUC↑	ΔAUC	参数(×106)	失败次数(×1012)
BaseArch: Traditional Two-Stage Models
LONGER(Chai et al., 2025)	RankMixer(Tolstikhin et al., 2021; Zhu et al., 2025)	0.6478	–	386	3.5
LONGER(Chai et al., 2025)	Full Transformer(Vaswani et al., 2017)	0.6472	-0.09%	416	6.2
LONGER(Chai et al., 2025)	Wukong(Zhang et al., 2024)	0.6465	-0.20%	385	5.2
Full Transformer(Vaswani et al., 2017)	RankMixer(Tolstikhin et al., 2021; Zhu et al., 2025)	0.6481	+0.05%	388	6.6
Full Transformer(Vaswani et al., 2017)	Full Transformer(Vaswani et al., 2017)	0.6474	-0.06%	418	9.3
Full Transformer(Vaswani et al., 2017)	Wukong(Zhang et al., 2024)	0.6468	-0.15%	387	8.3
UniArch: Unified-Block Models
MTGR/OneTrans (w/ LONGER)(Han et al., 2025; Zhang et al., 2025)		0.6480	+0.03%	406	6.6
MTGR/OneTrans (w/ Full Transformer)(Han et al., 2025; Zhang et al., 2025)		0.6483	+0.08%	450	21.9
HyFormer (Ours)		0.6489	+0.17%	418	3.9

4.1. 实验设置

4.1.1. 数据集

我们在抖音搜索系统的点击率（CTR）预测任务上评估我们的模型，抖音搜索系统是字节跳动的一个真实的大规模工业搜索推荐场景。该数据集源自连续 70 天的在线用户交互日志的子集，包含 30 亿个样本。每个样本都包含用户特征、查询特征、文档特征、交叉特征和几个顺序特征。模型中使用的三个主要序列定义如下：

长期序列：用户的长期搜索和点击行为序列，其长度可根据需要定制，本研究采用上限为3000。
搜索顺序：用户的前 50 个搜索行为项，由查询搜索模块过滤。
Feed 序列：用户的前 50 个 Feed 行为项，由查询搜索模块过滤。

4.1.2. 基线

我们将我们的模型与几个强大的基线进行了比较，这些基线可以分为两种架构范例：传统的两阶段模型和统一架构模型。

传统的两阶段模型遵循流行的主流设计，其中序列建模和特征交互分为两个连续阶段。具体来说，顺序表示首先通过专用序列建模模块生成，然后与其他特征的标记级表示交叉。对于长序列建模，我们使用了 LONGER(Chai 等人, 2025) 或 Full Transformer(Vaswani 等人, 2017) 架构。为了捕获标记化特征之间的交互，我们采用了几种专为特征交互而设计的既定架构，包括 RankMixer（Zhu 等人，2025）、Full Transformer（Vaswani 等人，2017）和 Wukong（Zhang 等人，2024）。

相比之下，统一块模型采用联合建模方法，其中顺序和非顺序特征在单个模型块内同时标记和处理。这将序列建模和异构特征交互集成到一个统一的阶段。 MTGR(Han 等人, 2025) 就是一个例子，它对所有特征进行标记，并使用 Transformer 风格的主干对它们进行联合建模。类似地，OneTrans(Zhang 等人, 2025) 遵循类似的简化设计，因为它采用金字塔压缩结构作为主干。在我们的 MTGR/OneTrans 模型的实现中，我们仅针对非序列和序列特征之间的交叉注意力执行 MTGR/OneTrans (LONGER)，而不计算内部序列自注意力。此外，我们按顺序执行具有完全自注意力的 MTGR/OneTrans（Full Transformer），以通过增加 FLOP 来实现更好的性能。

4.1.3. 评估指标

对于离线评估，我们采用查询级 AUC（曲线下面积）计算每个查询中样本的 AUC（Hand 和 Till，2001），然后对所有查询的结果进行平均。我们还报告了密集参数和训练 FLOP 的数量，后者使用批量大小 2048 计算。

4.1.4. 实施细节

为了方便我们的实验，推荐模型是冷启动的用于离线评估，并通过检查点进行预热用于在线评估。所有基线都使用相同的 2048 批量大小和优化器设置。所有 MLPmixer 模块的输入 Token 计数均对齐为 16。在多序列 HyFormer 实现中，它包含 13 个非序列标记和 3 个全局标记（每个序列一个），总共 16 个标记。所有模型都使用相同的超参数调整进行训练，并在 64-GPU 集群上进行实验。

4.2. 整体表现

4.2.1. 现有方法的比较。

我们提出的 HyFormer 架构在所有评估的模型中实现了最高的 AUC，优于传统的两阶段模型（称为 BaseArch）和其他统一块模型（称为 UniArch）。在 BaseArch 组中，性能随组件选择的不同而显着变化：对于特征交互，RankMixer （Zhu 等人，2025）始终优于 Self-Attention 和 Wukong（Zhang 等人，2024），而对于序列建模，将完全 self-attention 纳入序列通常会产生收益。值得注意的是，性能最佳的 BaseArch 组合采用 Full Transformer 与 RankMixer 进行序列建模，但由于其单向信息流的固有限制，仍然不及 HyFormer。此外，从表中可以明显看出，HyFormer 表现出卓越的计算效率。尽管达到了最高的准确度，但它只需要 3.9×10^2 的总 FLOPs，包括训练期间的前向和后向传播。这种计算成本明显低于大多数竞争对手，包括其他高性能模型，例如 MTGR（Han 等人，2025）。整体性能结果凸显了传统两阶段范式的固有局限性。

HyFormer 和 MTGR 等统一架构表明，将序列建模和特征交互集成到一个有凝聚力的设计中可以提高整体效率。然而，如表中结果所示，MTGR/OneTrans（Han 等人，2025；Zhang 等人，2025）依赖于 Self-Attention 进行特征交互，这种方法通常会降低 AUC 并显着影响交互模块的计算效率（Zhu 等人，2025）。因此，HyFormer 的独特之处在于，它无需在序列键值方面采用成本高昂的替换或复杂的建模即可实现最佳准确度。这验证了其在统一块内迭代查询解码和增强的核心设计原则。此外，MTGR/OneTrans 结合 Global Tokens 和 Seq Tokens 作为密钥，同时专门使用 Global Tokens 作为查询。这种设计有助于全局 Token 更容易地关注自身而不是序列 Token 。相比之下，HyFormer 强制执行分离的信息流：它首先将具体的序列项信息压缩并吸收到 Global Token 中，然后在不同的抽象 Global Token 之间进行交互，这两个步骤的过程反复跨层堆叠。此外，HyFormer 的混合架构为未来的扩展提供了更大的灵活性。它允许独立调整交互层/维度和序列建模层/维度，提供比将特征交互和序列建模严格绑定在单个标准注意层内的方法更具适应性的框架。

4.2.2. 消融研究。

表 2 介绍了对 HyFormer 性能改进的主要贡献者的消融研究。首先，我们消除查询的组成部分。HyFormer 查询由三个来源生成：全局非序列特征、多个序列池标记和原始目标特征。实验表明，将查询恢复到原始的、仅目标特征的状态严重限制了后续的深度特征交互，导致 AUC 下降 0.08%。从完整查询中删除跨序列池标记也会导致 0.05% AUC 损失，这证实了序列间交互在 HyFormer 结构中做出了有意义的贡献。

其次，我们评估整体架构变化。恢复基线架构（LONGER + RankMixer），该架构应用顺序建模，然后进行单独的特征交互，结果表明，即使查询信息丰富，缺乏加深的交互也会限制收益，仅产生 0.03% 的 AUC 改进（-0.14% 与 -0.17%）。相比之下，在旨在加强整个模型交互的 HyFormer 框架内，扩展查询信息可带来显着更大的 0.08% AUC 增益。

表 2。HyFormer 组件的消融研究

Configuration	AUC↑	ΔAUC	参数(×106)	失败次数(×1012)
Ablation of Query Global Context
HyFormer	0.6489	-	418	3.9
Query w/o Seq Pooling Tokens	0.6486	-0.05%	415	3.9
Query w/o Nonseq and Seq Pooling Tokens	0.6484	-0.08%	414	3.8
Ablation of Query Boosting
HyFormer	0.6489	-	418	3.9
HyFormer w/o Global Tokens	0.6484	-0.08%	414	3.8
BaseArch w/ Global Tokens	0.6480	-0.14%	505	3.6
BaseArch w/o Global Tokens	0.6478	-0.17%	387	3.5
Ablation of Multi-Sequence Modeling
HyFormer	0.6489	-	418	3.9
HyFormer + Merge Seq	0.6485	-0.06%	397	3.9

第三，我们对 HyFormer 中的多序列建模策略进行了消融研究。处理多个序列存在两种主要范例：通过维度对齐和串联将序列合并为一个序列以进行联合建模，或者保持序列分离并独立建模。HyFormer 采用后一种方法，为每个序列使用不同的查询标记。在我们的实验中，观察到序列合并和查询共享导致 AUC 显着损失 0.06%。因此，这体现了 HyFormer 在扩展查询和实现更广泛的功能交互方面的优势。此外，合并迫使不同的序列共享全局 Token ，而忽略了它们的独特性。与 HyFormer 对每个序列的单独建模相比，所得表示捕获的差异化信息要少得多。我们推测，序列合并的这种固有限制也部分解释了为什么 MTGR 和 OneTrans 等模型与 HyFormer 相比表现不佳。

总之，HyFormer 架构通过对不同序列采用独立标记，提供了通用的多序列建模框架，从而消除了跨序列强制对齐辅助信息或稀疏维度的需要。这种设计不仅在很大程度上保留了序列之间的固有区别，而且还能够将更多全局标记自适应分配给更重要的序列，这在我们的离线实验中产生了可测量的收益。

4.3. 尺度分析

在本节中，我们将介绍关于序列辅助信息、FLOP 和参数数量的模型性能的缩放分析。从表1的整体性能来看，在先进行顺序建模再进行异构特征交互的范式下，LONGER + RankMixer 取得了最好的性能，是目前的生产基线。因此，我们在扩展实验中将其作为BaseArch的对照组来比较HyFormer架构的扩展性能。

4.3.1. 参数和失败次数

Refer to caption

(a)使用参数调整 AUC

Refer to caption

(b)AUC 通过 FLOP 进行缩放图 3。根据 FLOP 和模型参数缩放性能。

我们研究了 HyFormer 架构在模型大小从 200M 到 1B+ 参数范围内的缩放定律。结果如图3(a)所示。可以看出，虽然 HyFormer 最初优于基线 LONGER + RankMixer 模型，但它总体上保持了强大的扩展优势，表现出比基线更陡的斜率。这表明，通过 HyFormer 中 LONGER 和 RankMixer 的交替堆叠层实现的双向信息流，与相似参数尺度的基线相比，可以通过增加深度获得显着更大的增益。当根据计算成本（FLOP）分析缩放法则时，会出现类似的模式。如图3(b)所示，AUC随着FLOPs的增加而稳定增加，遵循强烈的幂律趋势。这表明，增加计算资源使模型能够处理信息更丰富的序列，受益于初始查询的扩展以及通过MLP-Mixer中的特征交互对查询的重复增强，最终导致AUC更大的提高。

这些结果表明，HyFormer 的架构设计优先考虑扩展效率，通过丰富的异构特征交互为每个参数带来更大的增益，从而导致更陡峭的性能扩展曲线。

4.3.2. 稀疏暗淡

表 3。使用序列稀疏 Dim 进行缩放

Seq Length	Arch	Seq Sparse Dim	AUC↑	ΔAUC	ΔAUC Gap
1k	BaseArch	64	0.6478	-	-
	BaseArch	224	0.6484	+0.09%	-
	HyFormer	64	0.6489	-	-
	HyFormer	224	0.6497	+0.12%	+0.03%
3k	BaseArch	64	0.6486	-	-
	BaseArch	224	0.6490	+0.06%	-
	HyFormer	64	0.6499	-	-
	HyFormer	224	0.6507	+0.12%	+0.06%

我们还分析了模型性能如何随着序列标记输入维度的扩展（稀疏嵌入暗淡）而变化，即序列辅助信息的丰富程度。我们的实验表明，无论序列长度如何，丰富序列辅助信息始终为 HyFormer 框架带来比基线 LONGER + RankMixer 框架更大的好处。如表 3 所示，对于长度为 1000 的序列，将稀疏维度宽度从具有三种辅助信息类型（项目 ID、搜索查询文本网络分类和时间戳）的原始 64 维扩展到具有七种类型（添加搜索查询 ID、作者 ID、事件 ID 和播放时间）的 224 维，基线的 ΔAUC 为 0.09%，而基线的 AUC 为 0.12%海福尔。 HyFormer 的改进明显更大，这一趋势在实验中的其他序列长度上也成立。此外，HyFormer 和 BaseArch 之间的性能差距随着序列变长而扩大，维度扩展带来的额外增益从 1k 序列长度时的 0.03% 增加到 3k 序列长度时的 0.06%。

这些结果表明，扩展序列键/值信息在 HyFormer 框架内提供了更大的价值，并且随着序列较长，这种优势变得更加明显。其优势源于 HyFormer 能够将更丰富的全局信息集成到序列查询中，再加上 LONGER 和 Mixer 模块之间的双向信息流，这些模块共同实现了更彻底的功能交互。

4.4. 在线 A/B 测试

本节介绍了 HyFormer 模型在抖音搜索平台上的在线 A/B 测试结果，该结果是根据强大的现有 RankMixer 基线进行评估的。对于在线评估，我们采用三个关键指标：每个用户的平均观看时间、每个用户的视频完成播放次数和查询更改率。特别是，查询更改率量化了用户手动将搜索查询细化为更具体的查询（例如，从“iPhone”到“iPhone 17 Pro”）的概率，其计算如下：

(18)

querychangerate=NreformNtotal

其中 Nreform 是具有查询重构的不同用户查询对的数量，Ntotal 是不同用户查询对的总数。该指标可作为用户负面搜索体验的指标。

如表4所示，在线 A/B 测试证实了关键指标的显着改进：每个用户的平均观看时间增加了 0.293%，每个用户的视频完成播放次数增加了 1.111%，查询更改率降低了 0.236%。这些重大成果证明了 HyFormer 在现实世界的十亿用户平台环境中的实用价值和有效性。

表 4。抖音在线A/B测试结果

Online Test Metrics	Gain
Average Watch Time Per User ↑	+0.293%
Video Finish Play Count Per User ↑	+1.111%
Query Change Rate ↓	-0.236%

5. 结论

在本文中，我们提出了 HyFormer 架构。与流行的“长序列建模，然后特征交互”范式（先进行顺序建模，然后在单向流中进行异构特征交互）不同，HyFormer 引入 Global Tokens，通过特征交互提高查询能力，重新定义长序列建模和特征交互的角色。该架构在两个核心组件之间交替：查询解码和查询提升。从顺序建模的角度来看，这对应于迭代优化过程，该过程在使用全局 Token 解码长序列和通过跨特征交互增强全局 Token 之间交替。该设计为更彻底的序列建模和特征交互提供了新颖有效的框架，同时还为多序列建模提供了灵活的范例。大量的离线和在线实验验证了从单向信息流升级到双向协同进化范式的优越性，并提高了未来LRM在工业中的扩展上限。

能看到这里的小伙伴都点个赞👍，后续我们会继续针对hyformer进行代码部分的实战讲解。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐