从字节到阶跃：朱亦博的“全栈式”AI Infra传奇，十年讲清一件事

烟雨AC

653人浏览 · 2026-03-28 09:42:26

烟雨AC · 2026-03-28 09:42:26 发布

从字节到阶跃：朱亦博的“全栈式”AI Infra传奇，十年讲清一件事

他曾是RoCE网络技术早期奠基人，从零到一打造国内最大规模AI Infra之一，如今在阶跃星辰继续书写算力传奇

前言

在AI大模型如火如荼的今天，算力已成为各家企业争夺的焦点。而在国内AI Infra领域，有这样一位人物：他从微软研究院起步，先后在字节跳动、Google Cloud担任要职，如今作为阶跃星辰联合创始人，继续在AI基础设施领域开疆拓土。

他就是朱亦博——一位用十年时间，亲历并推动了中国AI Infra从无到有、从弱到强的技术专家。

从微软到字节：RoCE网络的早期奠基人

朱亦博的职业生涯始于微软研究院。在那里，他主要从事分布式系统方向的研究工作，成为RoCE（RDMA over Converged Ethernet）网络技术的早期奠基人之一。当时，“AI Infra”这个词甚至还没有被广泛提及，业界更多称之为Machine Learning Infra或MoE System。

2018年，朱亦博加入字节跳动，担任AI Infra负责人，开始了一段全新的挑战。从零开始，他带领团队逐步建设起国内最大规模的AI Infra之一。这段经历让他深刻认识到：Infra的积累与算法不同，它更强调经验和系统性思维。

“算法工程师可能只有两年的‘保质期’，两年后他们的聪明才智已经发挥完了，反而容易陷入思维定势。”朱亦博在一次播客中分享道，“而Infra是一个相对强调积累的事情，所以老人也会发挥重要作用。当然，新人也会带来新的idea。”

Google短暂驻足：全球化视野的拓展

离开字节后，朱亦博短暂担任Google Cloud GPU产品技术负责人。这段经历虽然不长，却让他接触到了全球最前沿的AI基础设施技术和理念。在Google，他直接支持了包括Anthropic在内的多家顶级AI公司，进一步拓展了全球化视野。

在Google的经历也让朱亦博更加确信：AI Infra正处于一个垂直整合的位置，需要面向特定硬件做模型设计和极致优化。他认为，大厂在这方面的人才错配，是过去一段时间的症结之一。

阶跃星辰：从零打造新一代AI Infra

2023年4月，朱亦博与姜大昕、张祥雨、焦斌星等人共同创立了阶跃星辰。作为系统负责人，朱亦博负责为这家通用大模型公司搭建完整的AI Infra体系。

在阶跃星辰，朱亦博的理念得到了充分实践。他坚信：“想做最优秀的大模型，就必须有最优秀的AI Infra。”

阶跃星辰成立仅一年多，就相继发布了Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型和Step-2万亿参数MoE语言大模型预览版。2025年7月，公司又发布了Step 3模型，采用MoE架构，总参数量321B，激活参数量38B。

2026年2月，阶跃星辰再次发布并开源最新基座模型Step 3.5 Flash，该模型采用稀疏混合专家（MoE）架构，总参数量达1960亿，每个Token仅激活约110亿参数。朱亦博在介绍该模型时表示：“现在市场上大模型百花齐放，不仅需要更聪明的模型，更需要值得信任、响应迅速、成本可控的模型。”

AI Infra的“全栈式”理念

在朱亦博看来，AI Infra与传统Infra既有相同点，又有显著差异：

相同点：都要解决大规模任务如何可靠、高效地运行，如何把计算、通信、存储有机结合起来完成任务。

差异点：AI Infra的绝对核心是GPU，而传统Infra的核心是CPU。这两种硬件在特性上完全不同，对通信互联、存储的要求也不一样。

朱亦博提出了一个“全栈式”AI Infra的理念，他认为AI Infra应该涵盖从硬件到软件的全方位优化：

“硬件主要是AI芯片，也包括像网卡、交换机这些。软件方面，我比较喜欢用云计算的三层架构来类比：IaaS、PaaS和SaaS。最底层的IaaS，是指把裸卡组装成服务器、连成网络、做好运维和管理。往上是PaaS，像是调度平台、资源管控平台。再往上是SaaS层，我觉得像训练框架、推理框架的优化这些。”

国产芯片的推动者

朱亦博不仅是AI Infra的实践者，更是国产芯片的坚定支持者。在阶跃星辰，他积极推动模型与国产芯片的适配优化。

以Step 3为例，朱亦博解释道：“模型每推理一个token所访问的显存和进行的计算量，与其注意力机制有关。团队考虑到行业当前在英伟达H800和H20等芯片所受到的限制，在架构设计层面重点考量了国产芯片的计算特性，在访存比斜率上优先贴近国产芯片，使其运行过程中不会出现严重的计算瓶颈或显存瓶颈。”

在朱亦博的推动下，阶跃星辰联合华为昇腾、沐曦、壁仞科技、燧原科技等近10家芯片及基础设施厂商成立了“模芯生态创新联盟”，在芯片、模型和平台全链路技术上展开合作。

Infra的ROI：一笔很清楚的账

朱亦博认为，Infra是一项确定性很高的投入，账算得很清楚：

“比如你有1万张GPU，都是比较贵的卡，1万张GPU月租一个月一个亿。如果雇一些人把利用率优化10%，就能省1000万，或者赚1000万。你愿意为这1000万一个月雇多少人？在Infra侧，这笔账很好算。”

这种清晰的ROI思维，也让朱亦博在管理Infra团队时能够更好地向公司证明价值。

未来的AI Infra：算力效率的持续优化

对于AI Infra的未来发展，朱亦博有着清晰的判断：

“最能利用计算的方法，长远来看才是赢家；摩尔定律的延续与充分利用，是Infra的终极课题。”

他认为，优秀的Infra团队，必须能画出“运行成本/效率—模型效果”的曲线，而不仅仅是参数量—效果的曲线。这也正是阶跃星辰在模型研发中始终坚持的理念。

结语：Infra人的机遇与挑战

回顾自己的职业生涯，朱亦博认为，大模型时代给了Infra从业者一个千载难逢的机会：

“上一次类似的机会是搜索引擎。以前Google处理海量互联网数据，需要世界一流的Infra。可以说Google的成功，很大程度上是因为Infra特别强。现在大模型也是类似的逻辑。同样的有大量的数据、极高的算力需求，范式直接跳了几个数量级。这时候你想做最优秀的事，就必须有最优秀的Infra。”

对于年轻的Infra从业者，朱亦博给出了这样的建议：“要么深入模型，要么深入硬件。”他认为，AI Infra夹在模型和硬件之间，只有深度理解其中一端，才能在另一端做好优化。

从微软到字节，从Google到阶跃星辰，朱亦博用十年时间，亲历了中国AI Infra从追随者到引领者的转变。而他，正是这场转变中最关键的推动者之一。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

一个GitHub Issue就能投毒Claude Code？我拆解了整条供应链攻击链

上周Claude Code刚被AMD AI负责人用23万次调用记录实锤"越更新越差"[1]，这周它的GitHub Actions又被安全研究者扒出了一个供应链级别的漏洞——一个恶意GitHub Issue，就能让Claude Code帮你把仓库Secret全偷走，甚至往你的代码里投毒[2]。这个漏洞有多严重？CVSS v4.0评分7.8，Anthropic为此支付了4800美元赏金。更可怕的是，A