# 告别穷举！ICML 2026 爆款论文实现高效寻找“最具影响力数据子集”

yimi小马哥

387人浏览 · 2026-06-08 11:08:52

yimi小马哥 · 2026-06-08 11:08:52 发布

在这里插入图片描述

开篇总结

这篇发表于顶级机器学习会议 ICML 2026 的论文《Finding Most Influential Sets》是由 Lucas D. Konrad 和 Nikolas Kuschnig 提出的创新研究。它解决了一个核心的科研与工程痛点：如何快速且精确地在海量训练数据中，找到那群一旦删掉就会对模型预测、回归系数或治疗效果产生最大影响的“最具影响力数据子集（MIS）” 。该研究之所以重要，是因为它打破了传统穷举法面临的算力灾难，首次将该问题的计算复杂度降到了惊人的线性级别 $\mathcal{O}(n)$ ，为模型可解释性、数据清洗和鲁棒性诊断提供了强大的底层算法支撑。

值不值得读

推荐指数：⭐⭐⭐⭐⭐（5颗星，强烈推荐）

适合：

机器学习与统计学研究者：特别是专注于模型可解释性（XAI）、数据估值（Data Valuation/Shapley）、鲁棒统计以及因果推断的同学。
计量经济学与实证数据分析师：经常需要通过剔除异常样本来做敏感性分析（Sensitivity Analysis）的科研人员。

预计阅读时间：

原论文：约 2.5 小时（涉及较多最优化理论与部分线性模型的统计证明）
导读版：约 8 分钟

这篇论文的价值

解决的痛点是什么？

在做科学研究或训练 AI 模型时，我们经常会遇到一个灵魂拷问：“我的结论/模型，是不是被某几条特定的恶作剧数据给‘绑架’了？”为了找出这群最有影响力的数据，最暴力的手段就是穷举法（Enumeration）。但这是一个恐怖的组合爆炸问题：从100个样本里找出10个最关键的组合，传统的穷举需要跑 200 天；如果找11个，直接飙升到 4.5 年！

为了省时间，过去大家普遍采用贪心算法（Greedy Selection）或基于一阶近似的影响函数（Influence Function） 。但这些方法都有一个致命缺陷——它们是“短视”的。数据之间存在极其复杂的“联合（Joint）”和“掩蔽（Masking）”效应。比如：单独删掉A、B、C三条数据，模型毫无波澜；但如果把它们同时删掉，模型的预测结果可能会瞬间翻车。贪心算法因为每次只看单点表现，完美地与这些“团队作案”的数据擦肩而过，极易陷入局部最优。

为什么作者要研究这个问题？

作者意识到，现有的诊断工具要么慢得无法落地，要么粗糙得容易漏判。在实证研究和工业界对数据合规、公平性、可信度要求越来越高的今天，我们迫切需要一种既能跑得飞快、又能保证找到全局最优解的完美算法。

EasyReader AI论文导读示例

研究目的

在部分线性模型（Partial Linear Models, PLM）等框架下，开发一种能够高效、精确找出大小为 $k$ 的最具影响力数据子集（MIS）的通用算法，跳出组合爆炸和贪心陷入局部最优的怪圈。

研究方法：线性分数规划的降维打击

论文最神来之笔的地方在于，作者发现：在剔除特定数据子集时，目标估计量的变化可以被完美地写成一个线性分数函数（Linear-Fractional Function），即一个由“被移除的得分总和（分子）”与“剩余的残差曲率（分母）”组成的比例形式。

利用这个特性，作者引入了最优化领域经典的 Dinkelbach 方法 。这个方法精妙地将一个极其恐怖的组合寻找问题，转化为了一个包含一维参数的、反复寻找 Top- $k$ 得分的序列问题。

每一轮迭代中，算法根据当前参数给每个数据点计算一个综合得分；
像排序一样，直接挑出得分最高的 $k$ 个数据点组成子集；
根据这 $k$ 个点更新比例参数，进入下一轮，直至收敛。

因为每一步的核心操作只是简单的 Top- $k$ 筛选，其时间复杂度被直接压到了最完美的线性级别 $\mathcal{O}(n)$ ！

核心创新点

绝对精确（Exactness）：在固定残差输入下，该算法被严谨证明能够100% 返回全局最优的子集，彻底解决了贪心算法的失效问题。

降维级别的速度：在包含 $10^6$ （百万级）样本、需要剔除 $10^5$ （十万级）样本的极端超大任务中，算法的 wall-clock 运行时间竟然低于 200 毫秒，平均只需要 3 轮迭代就收敛了！即便扩展到 10 亿级（ $10^9$ ）数据的变态规模，也仅需十几分钟即可搞定。

统计学完备性：在统计理论上，论文证明了即便在第一阶段的一阶扰动项是估计出来的情况下（带第一阶段慢收敛非参数成分），基于 Neyman 正交性的经验最优集依然能一致地收敛到理想的神谕（Oracle）最优集。

以上内容为 EasyReader 自动生成导读的部分节选。
用 EasyReader 高效阅读论文，下载体验：
https://www.easyreader.com.cn/
✓ 核心创新点拆解
✓ 关键实验结果总结
✓ AI论文问答
✓ 思维导图
✓ 还原排版中英对照翻译阅读

如果你只看10分钟

如果你时间紧迫，建议按照以下策略高回报阅读：

必看：第 2.2 和 2.3 节（第2-4页）

这里用非常精彩的图形（Figure 1）直观展示了为什么贪心算法会失败，以及什么是数据的联合影响与掩蔽效应。读懂这两节，你就抓住了整篇论文的核心物理图像。

必看：第 3.1 和 3.2 节（第4页）

这里给出了核心算法（Algorithm 1）的伪代码。公式极少，逻辑极度丝滑。看完你就能明白如何用区区几行代码，把穷举几年的问题变成几毫秒。

可以跳过：第 3.4 节（第5页）及附录的大段数学证明

除非你是专门做数理统计或者最优化理论证明的，否则 Theorem 2 的一致性证明以及复杂的测度论推导可以直接略过，不影响你理解和复现算法。

建议阅读顺序：
Abstract $\rightarrow$ Introduction $\rightarrow$ Section 2.3 (直观例子) $\rightarrow$ Section 3.2 (算法伪代码) $\rightarrow$ Section 4.1.2 (看令人震惊的时间开销图) 。