目录

背景介绍

相关工作

分位数回归(Quantile regression methods for reference growth charts)

条件分位数估计模型(Conditional Quantile Estimation, CQE)

3.3 分位数损失函数(pinball loss)

实验结论

两个任务评估:

4.3.1 观看时长预测

4.3.2 用户兴趣预测

4.3.3 实验结果 

问题:

相关概念解释:

保守估计具体含义:   

动态分位数组合:

场景一:用户处于高流失风险状态(例如,最近连续划走了10个视频)

场景二:用户处于低流失风险状态(例如,一位忠诚活跃的用户,每天都会使用APP)

Conditional Expectation (CDE)

为什么需要插值?一个简单的例子

"有什么量化的数据支持分布建模的重要性吗?"。

IQR含义:

实验中在用户兴趣预测中的具体应用方法

高低估计的惩罚程度?

在eta中的应用?


背景介绍

在短视频领域,准确预测观看时长对于优化推荐策略和改善用户体验至关重要。

  • 用户行为固有的不确定性和异质性,通常无法在完全相同条件下获得同一用户-视频对的多次观看时长观测值,导致无法直接从数据中估计真实的条件观看时长分布。
  • 现有方法通常侧重于预测观看时长的条件期望,忽略了条件观看时长分布的复杂性和多样性。
  • 使用单一的平均值来表征这些复杂的分布模式是不充分的,需要对观看时间条件整体分布进行建模。

如图1(a)所示,我们的CQE模型针对不同用户-视频对所预测的条件观看时长分布,在其形状、峰值位置和离散度水平上表现出显著的多样性。这种异质性反映了不同背景下用户偏好和参与度固有的不确定性和可变性。

基于CQE模型,我们设计了三种主要的推荐策略:

  1. 保守估计策略(图1(b))在期望观看时长相似时,通过选择具有较高下分位数的视频来优先考虑用户满意度,从而降低用户流失的风险。
  2. 动态分位数组合策略(图1(c))根据用户流失风险或视频新颖性等因素调整分位数的选择。为高流失风险用户或新颖视频分配更多权重给低分位数(Low Quantile),以确保令人满意的体验;而为低流失风险用户或熟悉视频分配更多权重给高分位数(High Quantile),可能提供更具吸引力的推荐。
  3. 期望估计策略(图1(d))提供了一个全局优化视角,旨在考虑整个观看时长分布以最大化整体用户参与度。这些策略的多样性使我们的推荐系统能够适应不同的场景和用户需求,从而提升个性化推荐的质量和用户体验。

除了图1(a)中显示的异质性外,我们对真实世界在线数据的实证分析使用四分位距(Interquartile Range, IQR)\frac{1}{N/2} \sum_{i=1}^{N/2} t_{\tau_{N-i+1}}- t_{\tau_i} 来量化这种分布变异性。该分析揭示了预测准确性与分布扩散度之间的明确关系,较窄的分布(IQR在[0.0, 0.1]区间内)实现了显著更高的预测准确度(UAUC: 0.721, MAE: 0.105),而较宽的分布(IQR在[0.5, 1.0]区间内)则表现较差(UAUC: 0.536, MAE: 0.305)。这份来自生产环境的数据驱动证据有力地支持了我们需要采用能够适应不同程度预测不确定性的条件分位数方法。

本文贡献:

  • 我们提出了CQE模型,该模型采用分位数回归技术来建模短视频推荐中观看时长的条件分布,提供了一种捕捉用户行为不确定性的原则性方法。

  • 我们设计了多种策略来组合CQE得到的分位数估计,以适应不同的推荐场景和用户偏好,从而增强了推荐系统的个性化和多样性。

  • 我们通过严格的离线实验和大规模在线A/B测试,验证了CQE在观看时长预测和用户兴趣建模方面的卓越性能,并在关键指标(包括活跃天数、参与时长和视频观看量)上取得了显著提升。

相关工作

分位数回归(Quantile regression methods for reference growth charts)

其与专注于估计平均结果的传统线性回归不同,分位数回归旨在估计随机变量的条件中位数(conditional median)及其他分位数。这一灵活特性提供了对变量分布效应的更全面理解,这是线性回归可能忽略的。

在视频推荐系统中,我们的主要目标是预测用户参与度,通常通过观看时长来衡量。令 (𝑢,𝑣) 表示特定上下文 𝑐 下的一个用户-视频对。我们定义了一个特征映射函数 𝜓(𝑢,𝑣,𝑐),该函数提取出一个 𝑛 维特征向量 x ∈ Rⁿ。此向量囊括了用户特征、视频属性、上下文信息以及历史交互数据。

令 𝑊 为代表观看时长的随机变量。目标是估计在给定输入特征条件下 𝑊 的概率分布:

我们的目标是刻画整个条件分布。这使我们能够捕捉用户参与模式中固有的不确定性和可变性,从而更全面地理解潜在的用户行为。

条件分位数估计模型(Conditional Quantile Estimation, CQE)

令 {𝜏₁, 𝜏₂, ..., 𝜏𝑁} 为一组 N 个预定义的分位数水平,其中 𝜏𝑖 = 𝑖/(𝑁+1)。我们的 CQE 模型旨在给定输入特征 x 的情况下,估计每个分位数水平对应的观看时长值 {𝑡𝜏₁, 𝑡𝜏₂, ..., 𝑡𝜏𝑁}:

其中 𝜙(·) 是一个由参数 𝜃 参数化的神经网络。为确保分位数估计的单调性:

这里,𝑓(·) 和 𝑔(·) 是神经网络组件,h 是一个中间的隐藏表示,d 是一个非负元素向量。最终的分位数估计值 𝑡𝜏𝑖 通过累加求和得到,这自然地强制执行了排序约束 𝑡𝜏₁ ≤ 𝑡𝜏₂ ≤ ... ≤ 𝑡𝜏𝑁。

此公式使我们的模型能够捕捉输入特征与条件观看时长分位数之间复杂的非线性关系,同时保持分位数函数所需的单调性特性。

CQE 模型的计算复杂度与传统的点估计方法[34, 35]相当,仅因需要估计多个分位数而有轻微增加。在大规模推荐系统中,唯一用户和物品的数量通常达到数亿甚至数十亿。这些用户和物品通常通过其各自ID检索到的高维嵌入向量来表示。有效估计所需的分位数数量通常在100左右。因此,与处理海量用户和视频特征所需的大规模计算相比,CQE 带来的额外计算成本可以忽略不计。

分位数损失函数(pinball loss)

对于单个分位数水平 𝜏,分位数损失定义为:


其中 𝑦 是实际观看时长,𝑡𝜏 是预测的 𝜏 分位数。

如图2右侧部分所示,分位数损失函数具有以下几个关键特性:
(1) 不对称性(Asymmetry):当 𝜏 ≠ 0.5 时,损失在样本值 𝑦 周围是不对称的,其不对称程度由 𝜏 决定。
(2) 线性(Linearity):损失随着预测值与实际值之间的距离而线性增加,但在 𝑦 的两侧具有不同的斜率。
(3) 分位数特定惩罚(Quantile-specific penalties)对于 𝜏 > 0.5,高估(overestimation)比低估(underestimation)受到更重的惩罚;反之,对于 𝜏 < 0.5,低估比高估受到更重的惩罚

这些特性使得分位数损失函数特别适合于分位数估计。汇总了所有分位数水平上的分位数损失:

这个聚合损失函数(aggregated loss function) 鼓励模型学习整个分布上准确的分位数估计,从而捕捉每个用户-视频对潜在观看时长的全貌。

3.4 推理策略

当我们训练好CQE模型来估计条件观看时长分布的多个分位数后,可以采用多种策略进行推理。我们提出了三种主要方法:保守估计(Conservative Estimation)、动态分位数组合(Dynamic Quantile Combination)和条件期望(Conditional Expectation)。每种策略都具有不同优势,适用于特定的推荐场景。

3.4.1 保守估计 在用户满意度至关重要且高估代价较高的环境中,这种方法关注观看时长分布中的较低分位数,以确保用户获得满意的体验。

如图1(b)所示,当期望观看时长相似时,我们通过选择具有较高低分位数的视频来优先保障用户满意度。此策略有助于降低用户流失的风险。此策略有助于降低因过度乐观推荐而导致用户失望的风险,因为实际观看时长很可能超过这个保守估计值。

3.4.2 动态分位数组合 为适应不同的用户偏好和内容特征,我们提出了动态分位数组合(DQC)策略。该方法根据上下文因素组合来自不同分位数的预测值。

如图1(c)所示,DQC策略根据用户流失风险或视频新颖性来调整分位数的选择。对于高流失风险用户或新颖视频,策略会给低分位数(Low Quantile)分配更高权重,以确保令人满意的体验;而对于低流失风险用户或熟悉视频,则会给高分位数(High Quantile)分配更多权重, potentially提供更具吸引力的推荐。

这种动态方法使系统能够基于用户的当前状态和内容熟悉度,在安全推荐和潜在回报更高的推荐之间取得平衡。

设𝑘 ∈ [0,1]为一个依赖于上下文的混合参数,通过以下公式计算最终预测值:


混合参数𝑘可以根据用户风险画像、视频新颖性或平台目标等因素进行调整。例如,对于新用户或新颖内容,我们可以使用较高的𝑘值(偏向保守估计);而对于成熟用户或熟悉的内容类型,则可以使用较低的𝑘值。

3.4.3 条件期望 对于需要优化期望观看时长的场景,我们采用条件期望策略。该方法通过在各预测分位数之间进行插值来估计平均观看时长。

如图1(d)所示,条件期望估计(CDE)策略提供了一个全局优化视角,旨在考虑整个观看时长分布的情况下最大化整体用户参与度。

为了通过条件期望恢复均值估计,面临一个挑战:在任何两个连续分位数之间的区间(𝜏𝑖,𝜏𝑖+1)内没有输出值。为了克服这一信息缺失问题,采用插值方法来近似条件分布:

在连续分位数之间采用线性插值,因此𝜏𝑖和𝜏𝑖+1之间的期望观看时长为(𝑡𝜏𝑖 + 𝑡𝜏𝑖+1)/2(𝑁 +1)。对于两个端点,我们假设𝑡0 = 𝑡𝜏1且𝑡1 = 𝑡𝜏𝑁。那么,我们可以通过以下公式近似计算整体观看时长期望值:

从理论上讲,这种期望值能给出最准确的预测,当𝑁 → ∞时将达到最优预测效果。

这些推理策略各具独特优势,使推荐系统能够适应不同的目标和用户上下文环境。利用CQE模型提供的丰富信息,我们能够做出更加明智且灵活的推荐决策。

实验结论

(1)人均观看时长:该核心指标通过量化用户观看推荐视频的平均时长,直接衡量用户参与度。
(2)总播放量:该指标统计所有用户的累计视频播放次数,反映用户与推荐内容的交互频率。
(3)用户活跃天数:该指标测量用户使用平台的天数,体现用户留存情况。
(4)日活跃用户数:该指标代表与平台交互的独立用户数量,反映系统维持和增长用户基础的能力。

4.1.2 实验结果(RQ1) 表2和表1总结了CQE策略相对于基线的性能表现:

保守估计(CSE):CSE在所有指标上实现了均衡提升。"人均观看时长"小幅增长0.008%,同时"总播放量"提升0.346%。此外,CSE带来用户活跃天数增加0.033%,日活跃用户数增长0.031%。考虑到每日数亿的巨大用户基数,即使活跃天数/活跃用户的微小增长,在0.02%水平上也具有统计显著性。这些结果表明,CSE成功鼓励用户观看更多视频,更频繁访问平台,并保持更长期的参与度。

动态分位数组合(DQC):通过基于内容新颖性设置混合参数k,DQC在参与度和交互指标上均取得提升。"人均观看时长"增加0.106%,"总播放量"增长0.177%。图3显示,该策略在实验期间还提升了两项核心多样性指标。

条件期望(CDE):CDE方法在"人均观看时长"指标上表现出0.165%的统计显著增长,但"总播放量"略微下降0.088%。这表明CDE有效提升了用户对单个视频的参与深度,尽管略微降低了交互的广度。

这些结果共同证明了我们的CQE框架在改进推荐系统各个方面的有效性。每种策略都提供独特优势:

  • CSE(保守估计) 提供了一种均衡的策略,它能提升所有指标,尤其擅长促进更广泛的平台互动和提高用户留存。

  • DQC(动态分位数组合) 提供了一个折中方案,能同时提升用户参与的深度和广度,并增强了内容多样性

  • CDE(条件期望) 擅长于深化用户对单个内容片段的参与度。

这些策略之间的选择取决于平台的具体目标,例如是优先考虑深度参与、广泛互动、用户留存还是内容多样性。此外,这些策略有可能根据用户细分群体或内容类型进行组合或动态应用,以优化系统的整体性能。

为了更深入地探究观看时间不确定性的本质,并验证我们方法在不同场景下的适用性,我们利用在线生产数据,对预测观看时长的分布特征进行了补充分析。

我们定义四分位距(IQR) 用以衡量条件观看时间分布的离散程度。表3显示了不同IQR范围与预测准确度指标之间的关系。

如表3所示,结果揭示了一个清晰的模式:分布范围越窄(IQR越小)的样本,其预测性能 consistently 更优值得注意的是,大多数样本(54.3%)处于中等IQR范围[0.2, 0.4]内,而仅有2%的样本表现出非常宽的分布(IQR处于[0.5, 1.0])。这验证了我们方法的焦点——对完整的条件分布而非单点估计进行建模是正确的,因为不同用户-视频对的分布离散程度存在显著差异。

此外,我们还分析了用户活跃度水平如何影响我们在线系统中的预测不确定性,结果如表4所示。
这些发现与我们的理论理解一致:
(1) 低活跃度用户表现出更高的预测不确定性(更大的IQR);
(2) 随着用户活跃度提升,预测准确度相应提高,这很可能得益于更丰富的历史数据;
(3) 即使是高活跃度用户也表现出固有的预测不确定性,这 underscoring 了无论用户参与度水平如何,我们这种感知分布的方法都具有普适必要性。

两个任务评估:

离线实验聚焦于两个紧密相关的任务:观看时长预测用户兴趣预测。这两个任务共同为评估CQE框架在推荐系统中的有效性提供了一个全面的视角。

观看时长预测直接捕捉用户与内容交互的持续时间,是用户参与度的关键指标。然而,仅预测观看时长可能无法完全捕捉用户兴趣。因此,我们引入了用户兴趣预测任务,该任务考虑了视频时长偏差,旨在提供一种更精细的用户兴趣度量方式。这两个任务互为补充:观看时长预测提供直接的行为预测,而用户兴趣预测则帮助我们理解这些行为背后的动机。

4.3.1 观看时长预测
 

数据集
遵循TPM [12]的设置,我们使用了两个公共数据集进行实验:Kuaishou(采集自快手App)和CIKM16(来自CIKM Cup 2016)。虽然CIKM16主要是一个电子商务搜索查询数据集,我们将其纳入以展示我们的CQE方法在不同推荐场景下的潜在泛化能力。电子商务中的页面停留时间预测与视频观看时长预测在建模用户参与时长方面具有相似性,尽管我们承认其在内容类型和用户行为模式上存在差异。在CIKM16数据集中,会话(session)中的每个商品(item)被用作输入的一个单独特征。Kuaishou数据集包含7,176个用户,10,728个物品(item)和12,530,806次曝光(impression);CIKM16数据集包含310,302个会话(session)和122,991个物品(item),每个会话的平均长度为3.981。

评估指标
我们使用两个指标来评估模型性能:平均绝对误差(MAE) 和 XAUC[31]。

  • MAE:该指标是评估回归准确性的典型度量。记预测值为𝑦̂,真实观看时长为𝑦,
    MAE = (1/𝑁) * Σ_{𝑖=1}^𝑁 ∥𝑦̂𝑖 − 𝑦𝑖∥. (9)

  • XAUC:它评估两个样本的预测值是否与其真实观看时长的顺序一致。这与推荐系统的排序性质非常契合。在实践中,预测值的相对顺序通常比其绝对值更重要,这使得XAUC与我们的研究目标特别相关。

基线模型
我们选择了六种最先进的观看时长预测方法进行比较,包括 WLR[4]、D2Q[31]、OR[16]、TPM[12]、DML[32] 和 CREAD[22]。

4.3.2 用户兴趣预测


此任务旨在考虑视频时长偏差,从观看时长中提取用户兴趣。通过这种方式,我们不仅考虑用户观看视频的时长,还考虑该时长与视频总长度的关系,从而更准确地反映用户的真实兴趣水平。

遵循D2Co [34]的方法,我们具体地将给定用户-视频对(𝑢,𝑣)的用户兴趣定义为:

其中𝑑为视频时长,𝑤为观看时长。我们采用了与D2Co相同的训练配置,并使用经典的深度推荐模型DeepFM[9]、最先进的推荐模型AutoInt[21]和DCNV2[26]作为我们的主干推荐模型。

数据集
遵循D2Co,我们利用了两个公开的真实世界数据集WeChat 和 KuaiRand。这些数据集源自知名的微视频平台,即微信视频号(WeChat Channels)和快手(Kuaishou)。WeChat数据集包含20,000名用户,96,418个物品(item),7,310,108次交互(interactions)。该数据集由2021微信大数据挑战赛提供,包含了微信视频号为期两周的日志。KuaiRand数据集是一个新发布的、从快手收集的序列推荐数据集。如[8]所建议,我们在本研究中使用了其子集之一KuaiRand-pure。它包含26,988名用户,6,598个物品(item),以及1,266,560次交互(interactions)。

评估指标

  • GAUC:该指标通过加权平均不同用户组别的ROC曲线下面积(AUC) 来计算,反映了模型对物品进行准确排序的能力。

  • nDCG@k:该指标根据物品的相关性及其在第k位之前的排名位置来衡量推荐列表的增益,有助于洞察顶部推荐物品的质量及其排序。

4.3.3 实验结果 

CQE-CDE与其他方法的比较(RQ2):我们比较了不同方法在观看时长预测任务中的性能,结果列于表6。我们的方法在两项指标上均表现出优于其他方法的性能,从而强调了采用分位数建模技术的优势。此外,MAE和XAUC指标表现出的一致性也验证了将观看时长估计用作排序指标的可行性。

对于用户兴趣预测任务,我们在不同的主干模型(DeepFM、AutoInt和DCNV2)和各种标签设计(PCR、WTG和D2Co)下比较了不同框架,并将结果呈现在表5和附录A中。我们提出的CQE-CDE在所有情况下都 consistently 优于其他方案,这表明了CQE-CDE的鲁棒性和有效性。就优化框架而言,CE(二元交叉熵)通常比MSE(均方误差)表现更好,这表明了引入序数分类信息作为指导是正确的。并且CQE-CDE在所有用户兴趣指标(PCR、WTG和D2Co)的设计上都能比CE有所改进,这意味着所提出的框架可推广到不同的标签设置

CQE-CDE中超参数的影响(RQ3):为了更好地研究所提出的CQE框架的特性,我们通过将分位数数量𝑁的值从1变化到500,进一步对其进行了消融研究。从理论上讲,更大的𝑁能更精确地近似真实期望,进而通常在总体上获得更好的推荐性能。这归因于更多的分位数能产生更接近真实分布的估计分布。如图4所示,在观看时长预测任务中,模型性能随着预测分位数数量的增加而提升。对于用户兴趣预测(图5),当分位数数量低于10时,性能相对较弱。超过此阈值后,结果在0.663左右波动,这表明与观看时长预测不同,更多的分位数并不一定能提升性能。这种差异表明训练目标与测试集中的用户兴趣标签之间存在未完全对齐的情况。然而,在条件期望(CDE)策略下,增加𝑁通常能提高预测准确性。

总之,我们的离线实验通过这两个互补的任务,全面证明了CQE方法在预测用户行为和兴趣方面的优越性。观看时长预测任务验证了CQE在直接行为预测方面的准确性,而用户兴趣预测任务进一步证明了CQE有效捕捉更复杂用户偏好的能力。这些任务的结合不仅验证了我们方法的有效性,还凸显了CQE框架在应对推荐系统中不同但相互关联的挑战时所具备的灵活性和适应性

问题:

1. 预测准确性与分布扩散度之间的明确关系?没看懂

2.(3) 分位数特定惩罚(Quantile-specific penalties):对于 𝜏 > 0.5,高估(overestimation)比低估(underestimation)受到更重的惩罚;反之,对于 𝜏 < 0.5,低估比高估受到更重的惩罚。 没有写反吗?

相关概念解释:

保守估计具体含义:   

核心思想: 在不确定的情况下,宁可低估,不可高估。优先保证用户的最低体验下限,避免因推荐“名不副实”的视频而让用户失望。

具体做法: 不使用预测的平均观看时长(可能被少数极端值拉高),而是使用预测的较低分位数(例如25%分位数 t_0.25)作为视频质量的衡量指标。

  • 分位数理解: 预测的25%分位数(t_0.25)意味着,模型认为用户观看时长有25%的概率会低于这个值,有75%的概率会高于这个值

  • 选择标准: 比较两个视频时,选择那个25%分位数更高的视频。这意味着,即使是在表现较差的情况下(概率分布的左端),该视频也能保证一个相对更高的观看时长,即它的“下限”更高。

动态分位数组合:

好的,这个动态分位数组合(DQC)策略非常巧妙,它本质上是一个自适应的混合策略,让系统能在“求稳”和“冒险”之间进行智能切换。

策略核心含义

核心思想: 没有一成不变的最佳策略,应根据用户是谁视频是什么来动态调整推荐逻辑。

具体做法: 将一个保守的估计(低分位数,如 t_0.25)和一个乐观的估计(高分位数,如 t_0.75)通过一个混合参数 𝑘 结合起来,生成最终的评分。

  • 公式:𝑦̂ DQC = 𝑘 * 𝑡_𝜏low + (1-𝑘) * 𝑡_𝜏high

  • 𝑘 值越高,公式结果越接近保守估计,策略越偏向安全

  • 𝑘 值越低,公式结果越接近乐观估计,策略越偏向探索最大化潜在收益

调整k值的依据:

  1. 用户状态:用户流失风险高 → 提高𝑘,保体验;用户忠诚度高 → 降低𝑘,促 engagement。

  2. 内容特性:视频新颖(冷启动)→ 提高𝑘,稳妥起见;视频成熟(有大量历史数据)→ 降低𝑘,充分挖掘其价值。

举个例子说明

让我们假设同一个用户在不同状态下的情况,以及一个新颖视频和一个热门视频。

视频X(一个全新的科普纪录片,发布仅1小时)

  • 预测分位数:

    • t_0.25 (低分位数): 5秒 (因为新颖,不确定性高,可能很多人看不懂就划走)

    • t_0.75 (高分位数): 90秒 (但也可能完全击中某些用户的兴趣,让人看得停不下来)

视频Y(一个热门的猫猫视频,已流行一周)

  • 预测分位数:

    • t_0.25 (低分位数): 20秒 (再不喜欢小动物的人也可能看一会儿)

    • t_0.75 (高分位数): 45秒 (但大家都知道它是什么,所以很少人会超长观看)

      场景一:用户处于高流失风险状态(例如,最近连续划走了10个视频)
    • 系统判断: 这个用户马上就要卸载APP了!当前最重要的目标是给他一个绝对不会出错的推荐,挽回他的体验。哪怕推荐的内容不是最爆的,也绝不能是差的。

    • 策略选择(高𝑘值,比如 𝑘 = 0.9): 此时策略极度偏向保守估计。

      • 视频X最终得分 = 0.9 * 5秒 + 0.1 * 90秒 = 4.5 + 9 = 13.5秒

      • 视频Y最终得分 = 0.9 * 20秒 + 0.1 * 45秒 = 18 + 4.5 = 22.5秒

    • 场景二:用户处于低流失风险状态(例如,一位忠诚活跃的用户,每天都会使用APP)
    • 系统判断: 这是我们的老朋友了,容忍度更高。目标不再是防止流失,而是为他发现“宝藏”,给他带来惊喜,最大化他的使用时长和满意度。

    • 策略选择(低𝑘值,比如 𝑘 = 0.1): 此时策略极度偏向乐观估计。

      • 视频X最终得分 = 0.1 * 5秒 + 0.9 * 90秒 = 0.5 + 81 = 81.5秒

      • 视频Y最终得分 = 0.1 * 20秒 + 0.9 * 45秒 = 2 + 40.5 = 42.5秒

    • 决策: 系统会选择视频X。因为对于忠诚用户,值得用5秒的潜在风险去博取90秒的超高收益。推荐成功了,用户会觉得“哇,这个推荐好灵,居然知道我喜欢这个!”,粘性更强。即使推荐失败了(用户只看了5秒),也无伤大雅,因为他明天还会再来。

    • 决策: 系统会选择视频Y。因为在这种“保命”模式下,视频Y高达20秒的“下限”保证了最差的体验也不会太差,避免了推荐视频X可能带来的5秒极差体验导致用户立刻流失。

Conditional Expectation (CDE)

核心思想: 放弃“小聪明”,回归“大智慧”。不再纠结于单个用户一次推荐的好坏,而是专注于从全局和长期的视角,最大化所有用户的总体观看时长。

具体做法: 利用CQE模型预测出的整个分位数分布(t_τ1, t_τ2, ..., t_τN),通过数学方法(公式(8))估算出观看时长的完整条件期望(平均值)E[W|x],并直接使用这个期望值来给视频排序。

  • 它做了什么: 它相当于计算了 predicted watch time distribution(预测观看时长分布)的加权平均。这个估算值 𝑦̂ CDE 是对真实平均观看时长 最准确、无偏的估计

  • 它的目标: 纯粹且简单——哪个视频的预测平均观看时间最长,就推荐哪个。它相信,长期坚持这么做,整个平台的总观看时长会达到最大。

为什么需要插值?一个简单的例子

假设我们的CQE模型只预测了3个分位数(N=3),即 τ = [0.25, 0.5, 0.75],对应的预测值是 t_0.25 = 10st_0.5 = 20st_0.75 = 30s

我们想知道平均观看时间。最粗糙的方法是直接取这三个值的平均:(10+20+30)/3 = 20秒。但这样不对,因为它没有考虑概率权重。每个分位数点只代表了分布上的一个点,点与点之间还有大量的可能性。

CDE策略通过线性插值来“填补”这些分位数之间的空白,假设两个分位数之间的观看时长是均匀分布的,从而近似出完整的分布,然后再计算这个完整分布的平均值。这样计算出的平均值比直接求几个分位数的平均数要精确得多。

"有什么量化的数据支持分布建模的重要性吗?"。

为了回应这个问题,我进行了一项额外实验:研究分布特性(如IQR,即分布宽度)与预测准确性之间的关系。

这一节的核心目的是:用量化的数据证明,用户观看时长的预测不确定性是普遍存在且变化巨大的,因此需要一个能够感知并建模这种不确定性的方法(即CQE)

  1. 他们分析了什么?

    • 他们使用了线上真实的数据,分析了CQE模型为海量“用户-视频对”预测出的观看时长分布的特性。

    • 他们用一个叫四分位距(IQR) 的统计指标来衡量每个预测分布的不确定性和离散程度

      • IQR小:意味着模型预测的置信度高,分布集中,不确定性低。例如,预测用户大概率会看20-25秒。

      • IQR大:意味着模型预测的置信度低,分布分散,不确定性高。例如,预测用户可能看5秒,也可能看60秒,很难把握。

  2. 他们发现了什么?(关键发现)

    • 清晰的相关性:IQR越小(分布越集中),预测准确度就越高;IQR越大(分布越分散),预测准确度就越低。这是一个非常符合直觉的模式。

    • 分布的多样性:大多数(54.3%)的预测分布在中等不确定性的范围内,但仍有相当一部分(2%)的预测具有极高的不确定性(IQR在[0.5,1.0])。这证明了不确定性程度因“用户-视频对”而异,不是一个固定值。

    • 用户活跃度的影响

      • 不活跃用户:不确定性更高(IQR更大),因为系统缺乏他们的历史数据,难以捉摸其喜好。

      • 活跃用户:不确定性更低(IQR更小),因为系统有丰富的数据更准确地预测他们的行为。

      • 最重要的一点:即使是高度活跃的用户,其预测也存在固有的不确定性(IQR不为零)。这意味着不确定性是普遍存在的,不仅仅是数据稀疏的问题。

  3. 这个发现意味着什么?(结论与验证)

    • 验证了CQE方法的必要性:因为不确定性(IQR)在不同案例中变化巨大,所以只预测一个单一的平均值(点估计)是完全不够的。你必须建模整个分布,才能捕捉到这种复杂性。

    • 为三种策略提供了理由:这个分析完美地解释了为什么需要第3章提出的三种不同的推理策略:

      • 对于高不确定性的案例(如IQR很大的新用户),你应该采用保守估计(CSE) 策略,优先保证下限。

      • 对于低不确定性的案例(如IQR很小的忠实用户),你可以采用条件期望(CDE) 或动态分位数组合(DQC) 策略,去追求最大化收益。

      • DQC策略中的混合参数 k,就可以直接根据这个预测出的IQR大小用户活跃度来动态调整。

一个简单的比喻

想象你是天气预报员。

  • 传统方法(只预测均值):就像你每天只报一个温度:“明天25°C。” 这在北京的秋天可能很准(IQR小),但在英国的春天可能完全不准,因为可能中午热早晚冷(IQR大)。

  • CQE方法(预测分布):就像你提供更全面的信息:“明天气温介于10°C到20°C之间,大概率是15°C(IQR中等)。” 甚至有的日子你会说:“明天可能5°C,也可能25°C,完全说不准(IQR很大)!”

  • 本节的分析:就是通过分析历史预报数据,证实了

    1. 确实有些日子温度波动就是很大(IQR大),有些日子则很稳定(IQR小)。

    2. 预报的准确度和温度的波动范围(IQR)强烈相关。

    3. 因此,只报一个温度值是远远不够的,提供全天的温度分布信息对于不同需求的人(例如,晨跑者关心最低温,户外活动者关心最高温)至关重要。

IQR含义:

用于衡量预测分布不确定性(离散程度)的指标

首先,公式的排版可能有些混淆。我们将其重写为更清晰的形式:

IQR = (2/N) * Σ_{i=1}^{N/2} (t_{τ_{N-i+1}} - t_{τ_i})

其中:

  • N: 模型预测的分位数总数(例如 N=100)。

  • t_{τ_i}: 第 i 个分位数对应的预测观看时长。分位数级别 τ_i 是按升序排列的,所以 τ_1 是最低分位(如0.01),τ_N 是最高分位(如0.99)。因此,t_{τ_1} 是最低分位数的预测值,t_{τ_N} 是最高分位数的预测值。

  • Σ_{i=1}^{N/2}: 一个求和循环,从 i=1 加到 i=N/2

这个公式的核心思想是:计算所有“对称分位数对”的差值,然后取平均值。

  1. 什么是“对称分位数对”?

    • 想象一下所有分位数像士兵一样从低到高排成一列。

    • 第1个士兵(t_{τ_1},最低分位数)和最后1个士兵(t_{τ_N},最高分位数)组成一对。

    • 第2个士兵(t_{τ_2})和倒数第2个士兵(t_{τ_{N-1}})组成一对。

    • ...

    • 以此类推,直到第 N/2 个士兵和倒数第 N/2 个士兵组成一对。

  2. 计算每一对的差距

    • 对于每一对 (i, N-i+1),计算它们的差值:(t_{τ_{N-i+1}} - t_{τ_i})

    • 这个差值代表了从 τ_i 到 τ_{N-i+1} 这个概率区间内,观看时长的可能波动范围。这个值越大,说明模型认为在这个概率范围内,用户的可能行为越不确定。

假设模型只预测了 4个分位数 (N=4),其对应的预测值为:

  • t_{τ_1} = 5秒 (τ=0.25,即25%分位数)

  • t_{τ_2} = 15秒 (τ=0.5,即中位数)

  • t_{τ_3} = 20秒 (τ=0.75,即75%分位数)

  • t_{τ_4} = 40秒 (τ=1.0,即100%分位数)

根据公式,我们有 N/2 = 2 对分位数需要计算:

  1. 第一对 (i=1): t_{τ_4} - t_{τ_1} = 40 - 5 = 35秒

  2. 第二对 (i=2): t_{τ_3} - t_{τ_2} = 20 - 15 = 5秒

然后计算IQR:
IQR = (2/4) * (35 + 5) = (0.5) * 40 = 20

这个结果(IQR=20)意味着什么?
这意味着这个“用户-视频对”的预测观看时长分布非常分散,不确定性很高。用户可能只看5秒,也可能看满40秒,模型很难给出一个确切的判断。这个IQR值很大,准确地反映了这种高度的不确定性。

与传统IQR的区别与联系

  • 传统统计学中的IQR: = Q3 (75%分位数) - Q1 (25%分位数)。它只用了两个点的信息(t_{τ_3} - t_{τ_1}),在上例中就是 20 - 5 = 15。

  • 本文定义的IQR: 它扩展了传统IQR的概念不仅仅考虑中间50%的数据(Q3-Q1),而是考虑了整个分布上所有对称区间的离散程度。它比传统IQR更能全面地表征整个分布的“胖瘦”或“不确定性”。

这个公式的目的是用一个数字来概括CQE模型预测出的整个条件分布的离散程度

  • IQR值大: 表示预测分布“又胖又散”,模型不确定性高。论文中的实验也证明,这类样本的预测准确度更低。

  • IQR值小: 表示预测分布“又瘦又集中”,模型很自信,预测确定性高。这类样本的预测结果更可靠。

这个分析有力地证明了为什么不能只相信一个平均预测值,因为平均值的背后可能隐藏着巨大的不确定性(很大的IQR),而CQE方法通过预测整个分布,能够揭示并量化这种不确定性。

实验中在用户兴趣预测中的具体应用方法?

在用户兴趣预测任务中,CQE(Conditional Quantile Estimation)框架与其它基线方法(如PCR, WTG, D2Co)的核心区别在于 如何从原始的、带有噪声和偏差的观看时长(watch-time)中,构建一个能够代表“用户真实兴趣”的标签(label)并进行模型训练

我们可以从三个层面来理解它们的具体实现区别:

1. 目标标签(Label)的定义与构建

这是最根本的区别。所有方法的目标都是得到一个代表用户兴趣的连续值 r(公式(11)中的目标),但它们的计算方法截然不同。

方法 核心思想 计算公式(简化) 优点 缺点
PCR 播放完成率:直接使用观看时长占视频总时长的比例。 r_pcr = w / d 计算简单,直观。 极易受时长偏差影响。长视频即使内容一般,也可能因分母大而获得较高的完成率;短视频内容精彩,但完成率上限低。
WTG 观看时长增益:引入对抗学习,试图剥离视频时长的影响,学习一个“无偏”的用户兴趣。 r_wtg = AdversarialLearning(w, d) (通过模型学得) 旨在消除时长偏差,更公平地衡量兴趣。 训练过程复杂(需要对抗训练),且去偏效果依赖于对抗学习的成功与否。
D2Co 去偏去噪观看时长校正:同时处理时长偏差和短时观看噪声(如误点击、立即划走)。 r_d2co = DeNoise( DeBias(w, d) ) (通过模型学得) 同时处理偏差和噪声,更为鲁棒。 模型结构可能更复杂,需要精心设计去噪和去偏模块。
CQE 条件期望:不直接计算r,而是先建模观看时长的完整条件分布,再基于分布计算期望(均值)作为兴趣标签。 r_cqe = E[W | x] ≈ (1/(N+1)) * (Σ t_τ_i + (t_τ1 + t_τN)/2) (公式(8)) 根本性优势:通过分布信息自然平滑了噪声和极端值,对偏差更鲁棒。它捕捉的是“平均预期观看表现”,而非单一观测值。 计算量稍大,需要预测多个分位数。

结论1:在标签构建阶段,CQE与基线方法的根本区别在于,通过预测分布来间接、更稳健地估计用户兴趣,而其他方法是直接基于原始观看数据(或对其进行简单/复杂的变换)来定义兴趣。

2. 损失函数(Loss Function)与训练目标

虽然大家都可能用二元交叉熵(BCE)或均方误差(MSE)损失,但赋予模型的学习信号(即标签r)的质量不同

  • Baselines (PCR, WTG, D2Co)

    • 它们使用上述方法计算出一个r值作为固定标签

    • 模型(如DeepFM)的训练目标是尽可能地拟合这个固定的r

    • 问题:如果这个r值本身有偏差或噪声(例如PCR的偏差,或所有方法都面临的短时噪声),模型就会去学习这些噪声和偏差。

  • CQE框架

    • 它的训练目标是最小化分位数损失(Pinball Loss),以学习观看时长的条件分位数 t_τ_i

    • 训练阶段,CQE并不直接优化与“用户兴趣”r相关的损失。它优化的是对观看时长分布的预测。

    • 推理阶段,它利用训练好的分布(多个分位数)计算出条件期望 E[W|x],将这个计算值作为兴趣分数r_cqe

    • 优势“降噪”和“去偏”发生在标签生成过程中。模型在学习分布时,已经自然地考虑了不确定性。用这个分布计算出的均值,比任何一个单一的观测值(或基于单一观测值的变换)都更稳健。

结论2:在训练过程中,CQE与基线方法的区别在于优化的目标不同。CQE学习的是更基础的分布,而基线方法学习的是对某个可能包含噪声的汇总统计量(PCR, WTG, D2Co)的映射。

高低估计的惩罚程度?

对于给定的目标分位数 τ

结论:
原文中 “For τ > 0.5, overestimation is penalized more heavily than underestimation” 的表述是不准确的,或者说正好说反了。正确的理解是:对于高分位数(τ > 0.5),低估(underestimation)比高估(overestimation)受到更重的惩罚

从这个例子可以清晰地看到,对于高分位数(τ=0.9),低估的实际代价(Loss=27)远大于高估的代价(Loss=3)。模型在训练中会因此学会避免低估,从而使得预测值会偏向于一个较高的、安全的数值。

  • 当 τ > 0.5(例如,我们想预测90%分位数 τ=0.9:

    • 低估(Prediction < Actual)的惩罚更重

    • 为什么?因为我们的目标是找到一个值,使得实际值有90%的概率低于它。如果模型预测的值(t_τ)低于真实值(y),那就说明这个预测没有达到“90%覆盖”的目标,犯了“低估”的错误,因此需要被重罚。公式中 (y - t_τ) 是正数,且乘以一个较大的 τ (0.9),惩罚系数很大。

    • 高估(Prediction > Actual)的惩罚更轻。公式中 (t_τ - y) 是正数,但乘以一个较小的 (1-τ) (0.1),惩罚系数很小。

  • 当 τ < 0.5(例如,我们想预测10%分位数 τ=0.1:

    • 高估(Prediction > Actual)的惩罚更重

    • 为什么?因为我们的目标是找到一个值,使得实际值有10%的概率低于它(即90%的概率高于它)。如果模型预测的值(t_τ)高于真实值(y),说明这个预测过于乐观,没有足够低,犯了“高估”的错误,因此需要被重罚。公式中 (t_τ - y) 是正数,且乘以一个较大的 (1-τ) (0.9),惩罚系数很大。

    • 低估(Prediction < Actual)的惩罚更轻。公式中 (y - t_τ) 是正数,但乘以一个较小的 τ (0.1),惩罚系数很小。

  • 一个直观的例子

    假设我们想预测一个视频观看时长的 90%分位数(τ=0.9)。这意味着我们希望预测一个时间点,用户有90%的概率观看时长会短于这个值。

  • 情况A(低估):你预测 t_0.9 = 30秒,但用户实际看了 y = 60秒

    • 你的预测严重低估了用户的行为。对你而言,只有不到90%的用户观看时长会低于30秒,这个预测没有完成“覆盖90%”的任务。这是一个严重错误

    • 损失 = τ * (y - t_τ) = 0.9 * (60 - 30) = 27

  • 情况B(高估):你预测 t_0.9 = 90秒,但用户实际只看了 y = 60秒

    • 你的预测高估了。虽然用户没看那么久,但你的预测值90秒仍然满足了“90%的用户观看时长低于90秒”的目标。这只是一个保守的、相对可以接受的错误。

    • 损失 = (1-τ) * (t_τ - y) = 0.1 * (90 - 60) = 3

目标分位数 τ 希望达成的目标 被重罚的行为 惩罚系数 被轻罚的行为 惩罚系数
高分为数 (e.g., τ=0.9) 找到一个较高的值,大多数真实值低于它 低估 (预测值 < 真实值) τ (很大, e.g., 0.9) 高估 (预测值 > 真实值) (1-τ) (很小, e.g., 0.1)
低分位数 (e.g., τ=0.1) 找到一个较低的值,大多数真实值高于它 高估 (预测值 > 真实值) (1-τ) (很大, e.g., 0.9) 低估 (预测值 < 真实值) τ (很小, e.g., 0.1)

在eta中的应用?

在预估价时高估一些?

分位数损失函数:

https://cloud.tencent.com/developer/article/2376731

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐