从字节到阶跃:朱亦博的“全栈式”AI Infra传奇,十年讲清一件事

他曾是RoCE网络技术早期奠基人,从零到一打造国内最大规模AI Infra之一,如今在阶跃星辰继续书写算力传奇

前言

在AI大模型如火如荼的今天,算力已成为各家企业争夺的焦点。而在国内AI Infra领域,有这样一位人物:他从微软研究院起步,先后在字节跳动、Google Cloud担任要职,如今作为阶跃星辰联合创始人,继续在AI基础设施领域开疆拓土。

他就是朱亦博——一位用十年时间,亲历并推动了中国AI Infra从无到有、从弱到强的技术专家。

从微软到字节:RoCE网络的早期奠基人

朱亦博的职业生涯始于微软研究院。在那里,他主要从事分布式系统方向的研究工作,成为RoCE(RDMA over Converged Ethernet)网络技术的早期奠基人之一。当时,“AI Infra”这个词甚至还没有被广泛提及,业界更多称之为Machine Learning Infra或MoE System。

2018年,朱亦博加入字节跳动,担任AI Infra负责人,开始了一段全新的挑战。从零开始,他带领团队逐步建设起国内最大规模的AI Infra之一。这段经历让他深刻认识到:Infra的积累与算法不同,它更强调经验和系统性思维

“算法工程师可能只有两年的‘保质期’,两年后他们的聪明才智已经发挥完了,反而容易陷入思维定势。”朱亦博在一次播客中分享道,“而Infra是一个相对强调积累的事情,所以老人也会发挥重要作用。当然,新人也会带来新的idea。”

Google短暂驻足:全球化视野的拓展

离开字节后,朱亦博短暂担任Google Cloud GPU产品技术负责人。这段经历虽然不长,却让他接触到了全球最前沿的AI基础设施技术和理念。在Google,他直接支持了包括Anthropic在内的多家顶级AI公司,进一步拓展了全球化视野。

在Google的经历也让朱亦博更加确信:AI Infra正处于一个垂直整合的位置,需要面向特定硬件做模型设计和极致优化。他认为,大厂在这方面的人才错配,是过去一段时间的症结之一。

阶跃星辰:从零打造新一代AI Infra

2023年4月,朱亦博与姜大昕、张祥雨、焦斌星等人共同创立了阶跃星辰。作为系统负责人,朱亦博负责为这家通用大模型公司搭建完整的AI Infra体系。

在阶跃星辰,朱亦博的理念得到了充分实践。他坚信:“想做最优秀的大模型,就必须有最优秀的AI Infra。”

阶跃星辰成立仅一年多,就相继发布了Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型和Step-2万亿参数MoE语言大模型预览版。2025年7月,公司又发布了Step 3模型,采用MoE架构,总参数量321B,激活参数量38B。

2026年2月,阶跃星辰再次发布并开源最新基座模型Step 3.5 Flash,该模型采用稀疏混合专家(MoE)架构,总参数量达1960亿,每个Token仅激活约110亿参数。朱亦博在介绍该模型时表示:“现在市场上大模型百花齐放,不仅需要更聪明的模型,更需要值得信任、响应迅速、成本可控的模型。”

AI Infra的“全栈式”理念

在朱亦博看来,AI Infra与传统Infra既有相同点,又有显著差异:

相同点:都要解决大规模任务如何可靠、高效地运行,如何把计算、通信、存储有机结合起来完成任务。

差异点:AI Infra的绝对核心是GPU,而传统Infra的核心是CPU。这两种硬件在特性上完全不同,对通信互联、存储的要求也不一样。

朱亦博提出了一个“全栈式”AI Infra的理念,他认为AI Infra应该涵盖从硬件到软件的全方位优化:

“硬件主要是AI芯片,也包括像网卡、交换机这些。软件方面,我比较喜欢用云计算的三层架构来类比:IaaS、PaaS和SaaS。最底层的IaaS,是指把裸卡组装成服务器、连成网络、做好运维和管理。往上是PaaS,像是调度平台、资源管控平台。再往上是SaaS层,我觉得像训练框架、推理框架的优化这些。”

国产芯片的推动者

朱亦博不仅是AI Infra的实践者,更是国产芯片的坚定支持者。在阶跃星辰,他积极推动模型与国产芯片的适配优化。

以Step 3为例,朱亦博解释道:“模型每推理一个token所访问的显存和进行的计算量,与其注意力机制有关。团队考虑到行业当前在英伟达H800和H20等芯片所受到的限制,在架构设计层面重点考量了国产芯片的计算特性,在访存比斜率上优先贴近国产芯片,使其运行过程中不会出现严重的计算瓶颈或显存瓶颈。”

在朱亦博的推动下,阶跃星辰联合华为昇腾、沐曦、壁仞科技、燧原科技等近10家芯片及基础设施厂商成立了“模芯生态创新联盟”,在芯片、模型和平台全链路技术上展开合作。

Infra的ROI:一笔很清楚的账

朱亦博认为,Infra是一项确定性很高的投入,账算得很清楚:

“比如你有1万张GPU,都是比较贵的卡,1万张GPU月租一个月一个亿。如果雇一些人把利用率优化10%,就能省1000万,或者赚1000万。你愿意为这1000万一个月雇多少人?在Infra侧,这笔账很好算。”

这种清晰的ROI思维,也让朱亦博在管理Infra团队时能够更好地向公司证明价值。

未来的AI Infra:算力效率的持续优化

对于AI Infra的未来发展,朱亦博有着清晰的判断:

最能利用计算的方法,长远来看才是赢家;摩尔定律的延续与充分利用,是Infra的终极课题。

他认为,优秀的Infra团队,必须能画出“运行成本/效率—模型效果”的曲线,而不仅仅是参数量—效果的曲线。这也正是阶跃星辰在模型研发中始终坚持的理念。

结语:Infra人的机遇与挑战

回顾自己的职业生涯,朱亦博认为,大模型时代给了Infra从业者一个千载难逢的机会

“上一次类似的机会是搜索引擎。以前Google处理海量互联网数据,需要世界一流的Infra。可以说Google的成功,很大程度上是因为Infra特别强。现在大模型也是类似的逻辑。同样的有大量的数据、极高的算力需求,范式直接跳了几个数量级。这时候你想做最优秀的事,就必须有最优秀的Infra。”

对于年轻的Infra从业者,朱亦博给出了这样的建议:“要么深入模型,要么深入硬件。”他认为,AI Infra夹在模型和硬件之间,只有深度理解其中一端,才能在另一端做好优化。

从微软到字节,从Google到阶跃星辰,朱亦博用十年时间,亲历了中国AI Infra从追随者到引领者的转变。而他,正是这场转变中最关键的推动者之一。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐