总目录 大模型相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

PDF下载:https://download.csdn.net/download/WhiffeYF/92774792
在这里插入图片描述

总体概述

这是NYU教授**谢赛宁(Saining Xie)**在CVPR上的演讲,主题是"Research as an Infinite Game"(研究是一场无限游戏)。演讲借用了James Carse的经典著作《Finite and Infinite Games》的框架,将学术研究重新定义为一场不以"赢"为目的、而以"持续参与"为目的的无限游戏。

核心论点是:当前AI研究正面临被异化为有限游戏的风险——追求论文数量、抢发、刷榜——但真正有生命力的研究应该具备反脆弱性、开放性、持久性,并以教育和社区建设为根基。演讲通过谢赛宁自己的亲身经历(DiT被拒稿、SiT被拒稿后逆袭等)来说明这些原则,既有哲学深度,也很接地气。


逐页讲解

第1页(封面)
标题页,“Research as an Infinite Game”,作者谢赛宁,NYU。用色彩丰富的卡通风格模板,轻松活泼地开场。

第2页(有限游戏定义)
介绍"有限游戏"的概念:有明确规则,以获胜为目的,一方赢则另一方输,游戏结束后玩家停止参与。配图举了下棋、踢球、百米赛跑、产品发布竞赛等例子。

第3页(无限游戏定义)
与之对比,"无限游戏"的目标不是赢,而是让游戏继续下去。规则、边界甚至玩家都可以随时间变化,唯一的核心条件是游戏不能终结。

第4页(James Carse介绍)
展示了《Finite and Infinite Games》这本书和作者James Carse的照片。Carse是NYU的历史学荣休教授——和谢赛宁同属NYU,形成了一个有趣的呼应。页面设计成了棋盘游戏的形式,暗合"游戏"主题。

第5页(演讲大纲)
列出四个部分的提纲:为什么研究应该是无限游戏、“我是自己的天才”、AI研究为何面临变成有限游戏的风险、没有人能独自玩游戏。

第6页(第一部分标题页)
进入第一部分,列出四个子主题:反脆弱性(Antifragility)、开放性(Openness)、持久性(Persistence)、教育(Education)。

第7页(反脆弱性要点)
核心主张:无限游戏是反脆弱的,研究者也应该如此。

第8页(反脆弱性定义)
引用Nassim Nicholas Taleb《反脆弱》的概念:从随机事件和冲击中获得更多好处而非坏处的东西就是反脆弱的,反之则是脆弱的。

第9页(棋手vs发明家)
通过对比棋手和发明家来说明:棋手在有限规则下竞争(有限游戏),而发明家在开放的探索中不断创造(无限游戏)。研究者应该更像发明家。

第10页(论文质量vs职业影响)
引用Bill Freeman的图表:论文对职业的影响呈现高度非线性——只有真正有创意且高质量的工作才能带来巨大的职业回报,普通的"还行"的论文几乎没有影响。这本身就是一种反脆弱的结构:少数大赢远超多数小输。

第11页(如何找到属于你的研究想法)
三步法:跟随好奇心和热情、保持探索性(用数学和实验去"hack")、对意外保持开放——意外才是真正的想法来源。同时警告一个陷阱:从第一天就固定想法、发表一篇从未演化的论文,往往是最弱的工作。

第12页(开放性)
有限玩家试图预测并控制未来;无限玩家则期待被意外惊喜。如果不再有意外的可能,所有的游戏都会停止。意外终结有限游戏,却是无限游戏继续的理由。

第13页(开放性与开放科学)
无限玩家以完全的开放来参与游戏。开放科学遵循同样的原则:进步来自分享知识而非守护知识,这样发现的游戏才能持续演进。

第14页(学术界的独特自由)
学术界是唯一一个可以完全自由地以开放方式参与游戏的空间。对学术界的人说:珍惜这种独特的自由,这是一种特权。对工业界的人说:学术界可以成为强大的盟友,帮助你降低风险、开拓新方向。

第15页(持久性)
有限玩家在目标无法达成时可能放弃(“论文没中、没拿到资助,我失败了”)。无限玩家把持久性视为一种存在方式(“这是更长游戏的一部分,我如何学习、适应并继续?”)。

第16页(DiT的故事——挫折)
讲述DiT(Scalable Diffusion Models with Transformers)论文的经历:截止日期前三周才转向这个项目,被CVPR 2023拒稿(理由是"缺乏新颖性"),还被多家公司拒绝。

第17页(DiT的故事——逆转)
没有做任何修改直接重新提交,获得了ICCV 2023的Oral。William Peebles(Bill)后来加入OpenAI,将DiT扩展成了Sora。有时你需要等待,有时你需要主动创造机会。

第18页(SiT的故事)
SiT是第一个研究基于flow matching的DiT模型缩放的工作,被CVPR 2024拒稿(又是"缺乏新颖性!"),做了微小修改后被ECCV 2024接收。

第19页(SiT后续影响)
几个月后,Stable Diffusion 3采用了扩散transformer架构加flow matching的组合。学术论文不会被工业论文"杀死"——SiT已经成为该领域的标准基线。

第20页(持久性总结)
谢赛宁说他最被引用的很多论文都没有获得最强的评审意见。建议:保持持久,拥抱黑天鹅——这就是无限玩家会做的事。

第21页(教育——有限游戏视角)
从有限游戏的视角看PhD训练:有明确的规则和目标(发表X篇论文、通过资格考试、答辩)、固定的参与者、明确的获胜条件(获得"博士"头衔)、有时间限制(毕业是终点)。

第22页(教育——无限游戏视角)
从无限游戏的视角看PhD教育:持续学习如何学习、提出有意义的问题、挑战假设;变得反脆弱——能够容忍模糊性、深入参与复杂性、与失败和修订共处;从消费知识转向创造知识并引导他人;即使毕业后也不会"赢得"研究或教育,你继续留在游戏中。

第23页(第二部分标题页)
“I AM THE GENIUS of myself”——你可以也应该玩自己的游戏。用宝可梦图标暗示每个人都有自己独特的"角色"。

第24页(为什么要发表论文?)
提出一个根本性问题:我们为什么要发表论文?

第25页(Hannah Arendt引言)
引用Hannah Arendt 1964年的话:我不追求影响力,我想要理解。当别人也以同样的方式理解了,那给我一种满足感,一种归属感。这回答了前一页的问题——发表论文的本质是为了理解和分享理解。

第26页(设计你的玩法)
在无限游戏中,不是通过胜过他人来脱颖而出,而是通过做自己并激励他人。这也就是人们常说的"讲一个好故事"和"研究品味",但接下来要讲一些更具体的东西。

第27页(研究者如同时装设计师)
以Kaiming He(何恺明)的MAE论文为例展示"一张表,一个信息"的写作风格——清晰的消融实验设计是一种研究"品牌"。

第28页(简洁的方法)
展示MoCo和MeanFlow的伪代码,强调"简洁、有原则的方法"是另一种研究风格标志。

第29页(逐步消融)
展示ConvNeXt论文的经典"阶梯式消融"图表,从ResNet-50一步步修改到ConvNeXt,隔离了每个设计选择的效果。这是谢赛宁自己的标志性风格。

第30-31页(“Saining plot”)
展示多个论文中出现的类似风格的消融图表,以及Lucas Beyer在Twitter上提议将这种图表命名为"Saining plot"的截图。说明你的研究风格可以成为你的个人品牌。

第32页(品牌化你的工作)
展示谢赛宁实验室的项目画廊,每个项目都有精心设计的主页。“品牌化你的论文、你的工作、你自己”——不要只是用千篇一律的"nerfies"模板。

第33页(知识分享)
“人们已经没有时间读论文了!”——所以需要更好的知识分享方式,比如精心设计的项目主页、博客等。

第34页(模板被广泛使用)
展示多个使用谢赛宁团队项目主页模板的其他研究组的项目。

第35页(第三部分标题页)
"为什么AI研究面临变成有限游戏的风险?"以及为什么无限玩家必须反击。

第36页(Before LLM vs After LLM)
用"This is fine"的meme对比LLM前后的研究氛围——之前还算平静,现在则像着火一样(但大家还在说"没事")。

第37页(令人担忧的研究模式)
描述了一个常见的模式:大公司(如OpenAI)发布新成果,大量跟风论文立刻涌现,所有人都抢着在同一主题上发表。这创造了一种"抢先发表=赢家"的有限游戏动态。

第38页(研究者的压力)
这种模式给学生和早期研究者带来巨大压力:激烈的竞争、难以持续的节奏。学术激励体系也有问题:优先考虑速度而非深度或创造力,奖励短期胜利而非持久贡献。如果学术界玩有限游戏,最终会输。

第39页(出路:定义新问题)
解决之道是定义新问题。以V*项目为例:从2023年7月开始,受人类心理学启发研究视觉搜索作为多模态LLM的核心机制,面对评审的质疑(“为什么需要这个能力?”“它会拖慢系统”),但在o1于2024年9月发布后得到了验证。

第40页(新问题=新游戏)
展示OpenAI的"Thinking with Images"发布以及V*基准测试的结果,证明定义新问题就是开启新的游戏。

第41页(无限游戏的意义)
有限游戏可能带来财富、地位、权力和认可,但无限游戏提供的东西更深刻、更有意义。不能指望初级研究者从一开始就自然具备这种长期的利他主义心态,问题是如何创建一个正向反馈循环来培养和维持它。

第42页(第四部分标题页)
"没有人能独自玩游戏。“选项是You/Me/They/We——答案当然是"We”(我们)。

第43页(反思——2010年的警告)
“如果你做计算机视觉,你永远找不到工作。”——2010年某篇博客。回顾当年计算机视觉还不被看好的时代。

第44页(导师的建议——2013年)
“你应该做计算机视觉。CVPR是开放的、包容的、不设门槛的。”——一位导师,2013年。展示了从CVPR 2015到CVPR 2025(Nashville)的跨越。

第45页(更多玩家≠无限游戏)
展示CVPR论文提交量的爆炸式增长图表(2025年已超过13000篇)。有更多的参与者并不自动意味着游戏变成了无限游戏——如果大家都在玩有限游戏的话。

第46页(社区的珍贵)
不要把我们的社区视为理所当然——每个人都有责任让它保持强大和欢迎。“CVPR crowd, best crowd 😃”

第47页(感谢社区建设者)
感谢帮助建设社区、让CVPR成为每个人的无限游戏的"无限玩家"们。展示了workshop组织者的照片。

第48页(结语)
"我的无限游戏伙伴们:谢谢你们,享受这场游戏!"用可爱的沙滩小兔子收尾。

第49页(初心)
展示PCA/特征脸的经典幻灯片,配上"WOW! This is so much fun! — me, in 2011"。回到了最初对研究的纯粹热情。

第50页(最终感悟)
最终只有两个问题重要:1. 问题解决了吗?2. 你享受解决问题的过程吗?

这是整个演讲最精炼的总结——研究的意义既在于推动知识前进,也在于享受这个过程本身。这就是无限游戏的精髓。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐