被引38万次的ResNet一作 90后“学术大神”张祥雨：从ResNet一到阶跃星辰首席科学家的AI长征

烟雨AC

485人浏览 · 2026-03-28 09:50:03

烟雨AC · 2026-03-28 09:50:03 发布

90后“学术大神”张祥雨：从ResNet一作到阶跃星辰首席科学家的AI长征

他28岁执掌旷视基础模型研究，29岁成为未来科学大奖最年轻得主，33岁入选TR35中国区榜单。他参与撰写的ResNet论文，被引次数超38万，是计算机视觉史上被引用最多的论文。今天，他是阶跃星辰首席科学家，正在攻克多模态AI的“内耗”难题。

前言

在人工智能领域，有一篇论文几乎无人不知——《Deep Residual Learning for Image Recognition》，也就是大名鼎鼎的ResNet（残差网络）。

这篇2016年获得CVPR最佳论文奖的里程碑式工作，让神经网络从“20层”一跃可以训练到“上千层”，为AlphaGo、AlphaFold、ChatGPT等后续突破奠定了基石。截至目前，这篇论文在Google Scholar上的引用量已超过38万次，是计算机视觉历史上被引用次数最多的论文。

而这篇论文的作者之一，是一个当时只有20多岁的年轻人——张祥雨。

2023年8月，张祥雨与何恺明、任少卿、孙剑（已故）共同获得未来科学大奖数学与计算机科学奖，成为该奖历史上最年轻的获奖者。2025年5月，他入选《麻省理工科技评论》2024年度“35岁以下科技创新35人”中国区名单。2026年1月，他与印奇、姜大昕、朱亦博组成阶跃星辰的核心管理团队。

这位90后首席科学家，走过了一条怎样的传奇之路？

本文将深度拆解张祥雨的学术成长、技术贡献和最新探索。

第一章：学术奠基——从西安交大到微软亚洲研究院

张祥雨的故事，始于西安交通大学。

2012年，张祥雨从西安交通大学本科毕业。彼时的他，已经展现出对计算机科学的浓厚兴趣和非凡天赋。随后，他进入西安交通大学与微软亚洲研究院联合培养博士项目，开启了长达5年的硕博连读生涯。

这段经历，对他日后的学术道路影响深远。

微软亚洲研究院（MSRA），被誉为中国计算机视觉领域的“黄埔军校”。这里走出了汤晓鸥、沈向洋、何恺明、孙剑等一批又一批顶尖AI人才。在这里，张祥雨遇到了两位对他影响深远的导师——何恺明和孙剑。

“我在微软的两位导师，何恺明和孙剑给我指导很多，他始终让我们坚持的一个原则是：简单和本质。”张祥雨在后来的获奖感言中这样回忆道，“这也能够让我们在一堆貌似正确的路线中，很幸运的找到了正确的那条路……”

这句话，后来成为贯穿他整个学术生涯的座右铭。

在微软亚洲研究院的日子里，张祥雨如饥似渴地吸收着前沿知识。他每天泡在实验室里，阅读海量论文，反复推敲算法细节。这种近乎“苦行僧”式的修炼，为他日后做出突破性工作打下了坚实基础。

2017年，张祥雨获得博士学位，正式开启了他的职业研究生涯。

第二章：ResNet传奇——一篇改写AI历史的论文

2015年，深度学习的浪潮正席卷全球。但有一个问题始终困扰着研究者：神经网络为什么不能更深？

当时，人们发现当网络层数增加到20层以上时，性能反而会下降。这个问题被称为“梯度消失/爆炸”——随着网络加深，梯度在反向传播中会指数级衰减或增长，导致模型难以训练。

何恺明、张祥雨、任少卿、孙剑组成的微软亚洲研究院团队，决定攻克这个难题。

他们的解决方案出奇地简单：在网络的每一层引入一个“直连通道”，让输入可以直接“跳跃”到输出，与经过变换后的结果相加。这样一来，网络需要学习的就不再是完整的映射，而是输入与输出之间的“残差”。

这就是**残差网络（ResNet）**的核心理念。

这个想法看似简单，却蕴含着深刻的洞察：与其让网络学习一个复杂的完整映射，不如让它学习一个简单的“差值”。 这种“简单和本质”的思维，正是张祥雨从导师们那里学到的精髓。

2016年，ResNet论文在CVPR上发表，一举获得最佳论文奖。其影响力迅速超越了计算机视觉领域，成为整个深度学习领域的基石性工作。

AlphaGo Zero使用ResNet作为核心网络架构；
AlphaFold 2同样采用了残差结构；
今天的大语言模型，无论是GPT系列还是BERT，都普遍使用了残差连接来支撑上百层的Transformer堆叠。

正如未来科学大奖在颁奖词中所说：“深度残差学习能让神经网络达到前所未有的深度，获得以前难以实现的能力，促成了多个突破性的成果——包括AlphaGo、AlphaFold和ChatGPT。”

这篇论文，今天在Google Scholar上的引用量已超过38万次。

第三章：从旷视到阶跃——28岁掌舵基础模型研究

博士毕业后，张祥雨加入旷视科技，成为旷视研究院的一员。

在这里，他迅速成长为团队的核心骨干。28岁那年，他成为旷视研究院基础模型组的负责人，为公司开辟基础算法新路。

在旷视期间，张祥雨继续在计算机视觉领域深耕。他与团队研发了ShuffleNet系列模型，这是一种专为移动端设备设计的高效卷积神经网络，广泛应用于手机、摄像头等终端设备的视觉处理。

他还多次带队获得ImageNet、COCO等国际计算机视觉竞赛的冠军，展现了在顶级的学术竞争中的硬实力。

除了工业界的实践，张祥雨还担任西安交通大学人工智能学院兼职教授，将前沿知识带回校园，培养下一代AI人才。

2023年，张祥雨做出了一次重要的职业选择——加入阶跃星辰，担任首席科学家。

阶跃星辰是一家成立于2023年4月的大模型创业公司，因其Step系列基座模型研发速度快、多模态性能强，被业内称作“多模态卷王”。CEO姜大昕为前微软全球副总裁，系统负责人朱亦博曾主导国内最大规模AI Infra建设。

张祥雨的加入，让这个“全明星”团队更加完整。

2026年1月，阶跃星辰完成超50亿元B+轮融资，创下过去12个月中国大模型赛道单笔最高融资纪录。同月，印奇正式出任公司董事长，与姜大昕、张祥雨、朱亦博组成“1+3”核心管理团队。

第四章：学术成就——未来科学大奖与TR35

张祥雨的学术成就，得到了业界的广泛认可。

🏆 2023年：未来科学大奖

2023年8月16日，未来科学大奖正式揭晓。何恺明、张祥雨、任少卿、孙剑共同获得数学与计算机科学奖，共享100万美元奖金。

这是未来科学大奖成立以来，首次将数学与计算机科学奖颁给四位获奖人。而张祥雨成为该奖历史上最年轻的科学家。

在获奖感言中，张祥雨说：“没有团队的努力，很难完成这项工作。当年在研究ResNet的时候，加深网络的路线非常多，各有不同的路径，我们也是做了大量的探索，很多路线也是貌似正确。”

他特别感谢了两位导师：“我在微软的两位导师，何恺明和孙剑给我指导很多，他始终让我们坚持的一个原则是：简单和本质。这也能够让我们在一堆貌似正确的路线中，很幸运的找到了正确的那条路……”

🌟 2025年：TR35中国区入选

2025年5月，《麻省理工科技评论》“35岁以下科技创新35人”（TR35）中国区名单在上海发布，张祥雨入选。

上海市政府官网的报道指出：“阶跃星辰是一家研发多模态大模型的上海企业，发布了中国首个千亿参数原生多模态大模型。作为这家企业的首席科学家，张祥雨在业内最早提出了图文生成和理解一体化的多模态大模型架构DreamLLM。”

基于这个架构，阶跃星辰研发出千亿参数原生多模态大模型Step-1V，与谷歌的首个同类模型Gemini 1.0几乎同时发布，其理解能力显著高于当时业内主流的视觉—语言分离式架构。

📊 学术影响力

截至2024年，张祥雨在Google Scholar上的学术引用已超过38000次。

除了ResNet和ShuffleNet，他还主导了Vision Transformer应用研究，探索大模型统一架构设计。

第五章：研究方向——从视觉模型到多模态统一

张祥雨的研究兴趣，经历了从单模态视觉到多模态统一的演进。

📷 视觉模型架构

在旷视期间，张祥雨专注于视觉模型架构研究。他主导了Vision Transformer在视觉领域的应用探索，并提出了ShuffleNet系列轻量化模型，让深度学习模型可以在手机等资源受限设备上高效运行。

🤖 生成式大模型

加入阶跃星辰后，张祥雨将研究重心转向生成式大模型。他聚焦视觉生成模型研发，试图突破图像模型的性能上限。

他认为，生成式模型将推动视觉与语言底层架构的统一。

🔬 多模态统一架构

张祥雨最重要的学术贡献之一，是在多模态领域的开创性工作。

他提出了业内最早的图文生成理解一体化的多模态大模型架构之一，并发布了中国首个千亿参数原生多模态大模型。

这意味着，同一个模型既可以“看懂”图像（理解），也可以“画出”图像（生成）。这是通往AGI的关键一步——因为人类的智能，从来就是多模态融合的。

第六章：最新探索——攻克多模态AI的“内耗”难题

2025年6月，张祥雨在一次访谈中谈及了他近两年模型训练中遇到的最大困境。

他提出了一个发人深省的问题：多模态AI的内部，一直有一场“内战”。

具体来说，在大一统多模态模型训练中，视觉的“理解”与“生成”能力可以共存，却很少协作，甚至时常内耗。在联合训练时，一方能力的提升甚至还会导致另一方性能的下降。

张祥雨对此的解释是：

“图像生成太复杂了，得有极其复杂的空间规划、物理常识和语义推理。而Transformer模型虽然强大，但它在一次前向传播中能执行的逻辑推理步骤是有限的。你让它根据‘画一个宇航员在月球骑方形轮子的自行车’这个指令，一次性生成符合所有物理、几何、语义约束的图像太难了。”

他提出的解决方案是：多模态模型应该像语言推理一样，引入**“思维链”（Chain-of-Thought）**，让模型分步骤地思考和创作，从而规避掉单次推理导致的信号粗糙问题。

这一思路引发了学界的广泛关注。2025年9月，北京大学的一篇最新研究《理解与生成能真正互利，还是仅仅共存？》提出了名为UAE的全新框架，为这个问题提供了另一种解法。

这说明，张祥雨不仅在做技术，更在定义技术问题——他正在为中国AI研究开辟新的方向。

第七章：重要观点——技术原创性与本质性

在多年的研究中，张祥雨形成了自己独特的技术哲学。

💡 观点一：Scaling Law是ChatGPT的核心价值

张祥雨指出，ChatGPT的核心价值在于规模化效应（scaling law）驱动AI发展。这意味着，模型的性能与其规模（参数、数据、算力）之间存在可预测的关系。这为AI研究提供了一个明确的方向：在计算资源允许的情况下，扩大规模通常会带来性能提升。

💡 观点二：AI技术需遵循原创性、实用性、本质性研究原则

张祥雨强调，AI技术研究需要遵循原创性、实用性、本质性三大原则。

原创性：不满足于跟随，而是要做真正创新的工作；
实用性：技术要能落地，解决实际问题；
本质性：穿透表象，抓住问题的本质。

这三条原则，正是他从ResNet研究中获得的宝贵经验。

💡 观点三：生成式模型将推动视觉与语言底层架构的统一

张祥雨认为，生成式模型将推动视觉与语言底层架构的统一。这意味着，未来的AI模型将不再区分“视觉模型”和“语言模型”，而是同一个模型同时具备多模态理解和生成能力。

这正是阶跃星辰正在做的事情。

第八章：人物印象——90后学术大神的低调与执着

在公众视野中，张祥雨是一个“隐身”的存在。

他很少接受媒体采访，很少在社交平台上发声。他留给外界的印象，更多是论文作者名单上那个名字，是学术会议上那个年轻的面孔。

但熟悉他的人，会用“纯粹”来形容他。

他曾在访谈中谈到自己的研究态度：“我们也是做了大量的探索，很多路线也是貌似正确。” 这种对探索过程的坦然描述，透露出一种科研工作者的执着与谦逊。

他28岁成为旷视基础模型组负责人，29岁成为未来科学大奖最年轻得主，33岁入选TR35。在外人看来，这是一条“开挂”的人生轨迹。但他自己或许并不这么认为。

对他来说，一切只是**“简单和本质”**的追求——找到正确的方向，然后专注地走下去。

尾声：站在AI浪潮之巅的90后

从西安交大到微软亚洲研究院；
从ResNet一作到旷视基础模型负责人；
从未来科学大奖最年轻得主到阶跃星辰首席科学家——

张祥雨用10年时间，完成了从“学术新星”到“AI领军者”的蜕变。

今天，他正在攻克多模态AI的“内耗”难题，试图让视觉的“理解”与“生成”真正协同、相互促进。这是通往AGI道路上必须跨越的障碍，也是他为自己设定的新目标。

正如他在获奖感言中所说：“我在微软的两位导师，始终让我们坚持的一个原则是：简单和本质。”

这个原则，会继续指引他走下去。

📌 写在最后

张祥雨的故事，是一个90后学术大神的故事，也是一个中国AI研究者与时代共振的故事。

从ResNet到ShuffleNet，从DreamLLM到Step-1V——他参与的每一项工作，都在推动人工智能的边界向前延伸。

今天，他是阶跃星辰的首席科学家，与印奇、姜大昕、朱亦博一起，带领这家“多模态卷王”公司，在AI+终端的道路上狂奔。

AGI的彼岸还很遥远，但张祥雨和他的同行者们，正在一步一步靠近。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

C++内存管理终极指南：从智能指针到RAII

AtomGit开源社区

LlamaFactory v0.9.5 发布：Qwen3.5/Qwen3.6/Gemma4 全面支持，Transformers v5 兼容性正式到位

代码地址：github.com/hiyouga/LlamaFactory总体来看，LlamaFactory v0.9.5 是一个覆盖面极广、工程含量很高的版本。它的重点并不只是“新增几个模型”，而是围绕这个核心目标，把模型支持、训练框架、分布式能力、多模态处理、模板配置、CI 环境、文档说明一起往前推进了一大步。Qwen3.5Qwen3.6Gemma4FSDP2DeepSpeed量化多模态v1 训