AI架构师/工程师高薪职位！上海/北京等你来挑战！

AGI大模型老王

381人浏览 · 2026-05-21 16:03:46

AGI大模型老王 · 2026-05-21 16:03:46 发布

本文介绍了多个与AI相关的职位，包括AI基础设施系统架构师、大模型训练框架工程师、大模型训练系统工程师、AI推理框架工程师和大模型算法工程师等。这些职位要求应聘者具备扎实的计算机体系结构、分布式系统基础和高性能网络技术，熟悉GPU硬件架构和主流AI训练/推理基础设施生态。此外，应聘者还需要具备良好的沟通领导力、跨团队项目推动经验和良好的代码习惯。这些职位为AI领域的专业人士提供了广阔的发展空间和挑战机会。

一、AI基础设施系统架构师（Tech Lead）上海/北京

职位描述

IaaS 平台架构设计：负责 AI IaaS 基础设施的架构设计与持续迭代，涵盖 GPU算力资源池化、多集群调度、弹性扩缩容等核心能力建设，提供一致性、可扩展、高可靠的平台技术底座
Infra 管理平台：规划并推进基础设施管理平台的建设，覆盖资产管理、容量管理、故障自愈、可观测性等能力，提升大规模集群的运维效率和自动化水平
硬件方案创新与 TCO 优化：跟踪GPU/网络/存储等硬件技术演进，联合硬件研发、网络、存储、内核等团队推动方案创新，在性能、成本、可用性、可运维性等维度持续提升竞争力
算力中心规划与建设：Lead团队成员完成大模型训练/推理场景下的算力中心整体建设，包括机房选址评估、电力/散热容量规划、服务器选型与集群组网方案设计，端到端交付高性能 AI 基础设施

职位要求

5 年以上云计算/IDC 基础设施相关工作经验，有大规模 AI 算力集群（千卡以上）的规划、建设或运营经验优先
深入理解计算机体系结构，对GPU 服务器、高速网络（IB/RoCE/NVLink/NVSwitch）、高性能存储等其中1个或多个方向有比较深入的熟悉和了解
了解大模型训练对基础设施的核心需求，熟悉主流 AI 训练/推理基础设施生态（NVIDIA DGX/HGX、集合通信、NCCL等）

4… 有 IaaS 平台或基础设施管理平台的设计与落地经验者优先（资源调度、CMDB、监控告警等）

5 具备跨团队项目推动经验和良好的沟通领导力，能带领 3-5 人项目组攻克复杂技术问题

加分项

有头部云厂商（阿里云/AWS/GCP/Azure）或 AI 公司基础设施团队经验

二、大模型训练框架工程师（训练框架 & RL 方向）北京/上海

在某个领域有真正的深度——分布式系统、GPU 性能优化、RL 工程、推理加速，都行——同时对算法前沿保持真实的好奇心。

三、大模型训练框架研发工程师-生成模型方向北京/上海

你将加入一支把“把万卡集群跑到极致”当日常的团队，与业内领先的通用大模型一起成长。你的核心任务是：突破大规模训练的速度、成本与稳定性的极限。

你将负责的核心工作：

大规模分布式训练系统研发（Scale Matters）

主导 Data / Tensor / Pipeline / Expert 并行策略的研发与优化。
优化高性能通信、计算通信掩盖、显存复用，提升近万卡训练的集群利用率。
面向上百亿〜万亿参数模型，实践高效并行范式。

性能极限优化（Performance Engineering）

系统性分析训练吞吐瓶颈（comm / compute / IO / kernel / memory）。
针对关键路径做深度优化：算子融合、精度压缩、通信调度、显存管理策略。
与推理体系协同推进量化、MoE、Speculative Training 等最新机制的训练端落地。

前沿训练技术探索（Frontier Research → Engineering）

根据你的兴趣及特长，可主导其中一类：

前沿训练范式：Agentic RL、异步 RL等机制的系统工程化落地。
训练稳定性：大规模优化器、动态容灾、divergence 检测与修复机制。
可扩展性研究：scaling law 工程落地、模型分布式形态设计、训练效率极限建模。

与硬件深度协作（System × Model）

与底层 kernel / runtime / compiler 团队协作，共同推进 compute-bound 和 comm-bound 场景的极限性能。
设计充分压榨 GPU/NPU 的训练模式，让硬件“跑在它没想过的速度”。

职位要求

我们希望你具备（不求全，但求强）

可以 0 优化经验，但在其他领域有过优秀成果。
熟悉高级编程语言，具备扎实的数据结构、并行编程、系统基础。
对 PyTorch、DeepSpeed、Megatron、Horovod、JAX、XLA 等之一有体系化理解。
对以下任一方向有深入经验或潜力：

大型分布式训练（DP/TP/PP/MoE）
GPU/多机通信优化（NCCL、RDMA、通信拓扑）
训练框架/执行引擎研发
大模型训练的性能与稳定性优化

对前沿训练问题有明确兴趣，如：

训练端：scaling law、混合并行策略、优化器系统、极致显存压缩
推理端协同：量化训练、KV cache aware training、speculative training

有大规模模型训练经验（千卡〜万卡）者优先。
有顶会论文、开源贡献、或工程项目能展示你能力者，是加分项但非必要。

为什么加入我们

你将直接参与领先通用大模型的核心训练体系，工作成果会快速转化为真实产品力。
足够高的解决问题自由度，我们的工作不仅局限于特定scope，也不受限于特定工程算法方案，只要能够挑战更高的极限，可以放下当前所有的约束。
和有“偏执工程美学”的伙伴一起，把“更快、更稳、更大规模”做成一种乐趣。

四、大模型训练系统工程师北京/上海

职位描述

建设超大规模AI训练集群，保证训练的稳定性，提升资源效率和硬件效率；
深度参与大模型技术迭代，构建预训练、SFT、RLHF等算法方向的工程架构，解决底层基建问题，提升模型整体的迭代效率；
探索业界前沿的AI Infra技术，建设行业领先的大模型基础设施解决方案。

职位要求

扎实的计算机体系结构和分布式系统基础，熟悉GPU硬件架构，具备Kubernetes及云原生技术栈，了解 RDMA、InfiniBand、NVLink 等高性能网络技术；
扎实的工程素养，良好的代码习惯（Golang/Python/C++），善于使用AI Coding提升工作效率；
对大模型架构和工程链路有了解，了解Megatron、Verl、Ray等训练框架；
优秀的学习能力，对AI有热情和好奇心，追求技术成长和认知快速迭代，表达清晰，逻辑严谨；
良好的沟通协作能力，能够与算法团队紧密配合，一起探索大模型新技术，推动模型快速迭代。

五、AI推理框架工程师北京/上海

职位描述