如果你正在从事大模型训练框架、分布式并行计算相关的工作,如果你对Megatron-LM、DeepSpeed了如指掌,如果你曾为千亿参数的训练效率熬夜调优——那么这个岗位,值得你认真看一看。

我们是一家国内头部芯片公司,正在招募大模型训练并行计算工程师,上海、北京两地均有Headcount,全栈算力基础设施等你来定义。

你将负责的工作包括:
  • 大模型训练系统的性能分析与瓶颈定位,制定针对性优化方案;

  • 跟进MoE、长序列、文生图等前沿场景,优化并行策略(数据/模型/流水线/张量并行等)

  • 参与大模型训练全流程监控与稳定性建设,保障大规模训练任务高效运行;

  • 设计并建设性能与内存评估方法论,量化分析通信、计算、资源占用等关键指标。

我们希望你:
  • 本科及以上学历,计算机相关专业,3年以上相关经验

  • 熟悉Megatron-LM / DeepSpeed等主流大模型训练框架;

  • 编程能力强,熟练使用PyTorch性能分析工具及相关性能优化方法;

  • 逻辑清晰,具备良好的沟通能力与抗压能力;

  • 加分项:有实际并行策略开发或优化经验;千卡以上大模型训练经验者优先。

我们能提供:
  • 年薪范围:30万 - 80万(15薪结构,具体面议);

  • 五险一金实缴,国家法定假期;

  • 上海(张江) / 北京(海淀)双职场可选;

  • 头部芯片公司平台,直面大模型训练最前沿的工程挑战。

面试流程:
  • 2-3轮技术面试(支持视频面) + HR终面;

  • 整体节奏紧凑,1周内反馈


感兴趣的朋友私信我

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐