大模型训练并行计算工程师 | 30-80万·上海/北京·头部芯片公司核心岗位
·
如果你正在从事大模型训练框架、分布式并行计算相关的工作,如果你对Megatron-LM、DeepSpeed了如指掌,如果你曾为千亿参数的训练效率熬夜调优——那么这个岗位,值得你认真看一看。
我们是一家国内头部芯片公司,正在招募大模型训练并行计算工程师,上海、北京两地均有Headcount,全栈算力基础设施等你来定义。
你将负责的工作包括:
-
大模型训练系统的性能分析与瓶颈定位,制定针对性优化方案;
-
跟进MoE、长序列、文生图等前沿场景,优化并行策略(数据/模型/流水线/张量并行等);
-
参与大模型训练全流程监控与稳定性建设,保障大规模训练任务高效运行;
-
设计并建设性能与内存评估方法论,量化分析通信、计算、资源占用等关键指标。
我们希望你:
-
本科及以上学历,计算机相关专业,3年以上相关经验;
-
熟悉Megatron-LM / DeepSpeed等主流大模型训练框架;
-
编程能力强,熟练使用PyTorch性能分析工具及相关性能优化方法;
-
逻辑清晰,具备良好的沟通能力与抗压能力;
-
加分项:有实际并行策略开发或优化经验;千卡以上大模型训练经验者优先。
我们能提供:
-
年薪范围:30万 - 80万(15薪结构,具体面议);
-
五险一金实缴,国家法定假期;
-
上海(张江) / 北京(海淀)双职场可选;
-
头部芯片公司平台,直面大模型训练最前沿的工程挑战。
面试流程:
-
2-3轮技术面试(支持视频面) + HR终面;
-
整体节奏紧凑,1周内反馈。
感兴趣的朋友私信我,
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)