HAMi 社区 Meetup 深圳站回顾：七位专家共话 AI 算力云原生未来

guaguaRethink

382人浏览 · 2026-05-07 10:45:05

guaguaRethink · 2026-05-07 10:45:05 发布

HAMi Meetup 深圳站

4 月 25 日，HAMi 社区在深圳成功举办第三场线下 Meetup。本次活动以"不卷算力卷效率"为主题，来自 CNCF、顺丰科技、招商银行、燧原科技、深信服、博维智慧科技及密瓜智能的七位技术专家，围绕 AI 基础设施云原生演进、GPU 算力池化、异构调度、DRA 技术展望等前沿话题，为现场观众带来了一场深度技术盛宴。

本次活动由 HAMi 社区发起，由密瓜智能主办，顺丰科技协办并提供场地支持。

活动亮点速览

• Keith Chan（CNCF 中国区总监、Linux 基金会亚太区副总裁） 从全球视角解读 AI 基础设施的云原生趋势，透露 KubeCon 上海站 AI 相关议题占比高达 60%-80%
• 李孟轩（密瓜智能联合创始人兼 CTO、HAMi Maintainer） 首次公开 v2.9 版本核心特性，揭秘 DRA 生态联盟布局与异构算力统一管理愿景
• 陈俊超（顺丰科技后端开发高级工程师） 分享多云环境下的 GPU 池化落地实战，集群平均利用率从 40% 提升至 90%
• 苏茜（招商银行研发工程师） 揭秘超节点硬件适配与网络拓扑感知调度，跨机调度概率降低 30%
• 马达（燧原科技） 展示基于 GPU Operator + CDI + DRA 的全栈云原生集成方案
• 贾毫杰（深信服云 AI 总架构师） 分享 AI 算力网关治理策略，将每一分算力转化为可衡量的业务价值
• 欧彬凯（博维智慧科技研究员） 展示一键部署平台与 HAMi 深度整合的 GPU 虚拟化实践

开场：The infrastructure of AI's future

CNCF 中国区总监、Linux 基金会亚太区副总裁 Keith Chan 发表了题为"The infrastructure of AI's future"的开场演讲。他分享的 CNCF 调研数据显示：

• 全球已有 66% 的企业将 AI 负载运行在云原生环境上
• Kubernetes 已成为 AI 基础设施的统一编排层
• NVIDIA 正式加入 CNCF 成为白金会员，PyTorch 社区与云原生社区深度融合
• KubeCon 上海站 AI 相关议题占比高达 60%-80%

Keith 指出，AI 领域的竞争焦点正在从"堆算力"转向"用算力"。GPU 成本高、资源利用率不足已成为全球共性问题，如何以最低成本、最高效率利用算力成为核心命题。CNCF 正积极推动 Certified AI Platform for Kubernetes 标准化计划，为 AI 基础设施的云原生化提供方向指引。

技术分享回顾

HAMi DRA 生态联盟与 v2.9 版本前瞻

密瓜智能联合创始人兼 CTO、HAMi Maintainer 李孟轩 首次公开了 HAMi v2.9 版本的核心特性与未来规划。

DRA（Dynamic Resource Allocation）正在成为 Kubernetes 新一代设备管理模型，但在厂商侧存在实现不确定性，在用户侧也面临较高的使用门槛。为此，HAMi 社区将发起 DRA 生态联盟，连接设备厂商与用户，推动 DRA 在真实场景中的落地与标准化演进。

DRA 方案落地：

• 面向 NVIDIA / Ascend / Enflame 三大平台的 DRA 方案已实现落地
• 通过原生 Kubernetes 能力简化调度链路，降低用户使用门槛
• 统一调度层屏蔽底层硬件差异，实现异构算力统一管理

HAMi v2.9 核心能力预览：

• 更细粒度的昇腾切分能力，提升国产算力资源利用率
• 支持 kai-scheduler 调度，扩展调度器生态
• Dynamic MIG 调度优化，进一步提升 NVIDIA GPU 的灵活切分能力

顺丰科技：HAMi 在多云环境下的落地实践

顺丰科技后端开发高级工程师 陈俊超 分享了顺丰科技基于 HAMi 构建统一算力池化方案的完整实践经验。

顺丰科技面临着 GPU 利用率低、多集群资源割裂、运维复杂度高等核心挑战，尤其是跨 5 个私有云集群和多家公有云的 AI 算力管理场景，传统"整卡分配"模式导致大量算力浪费。

基于 HAMi 的解决方案：

• 在多云 Kubernetes 集群上实现 AI 算力的统一调度与精细化管理
• 打破 GPU 独占模式，通过细粒度切分实现多任务复用
• 集群平均 GPU 利用率从 40% 提升至 90%，显著降低算力成本
• 统一运维面，降低多集群管理的复杂度

该方案已在顺丰科技多个生产集群中稳定运行，验证了 HAMi 在大规模企业级场景下的可靠性与可扩展性。

招商银行：基于 HAMi 的异构 AI 算力调度优化实践

招商银行研发工程师苏茜分享了基于 HAMi 构建统一纳管多源异构 AI 算力调度平台的深度实践。

招商银行基于 HAMi 构建了"一池多芯、弹性共享、拓扑优化"的完整技术闭环，成功解决算力孤岛、资源利用率低和运维成本高等核心挑战。

昇腾 910C 超节点适配：

• 针对昇腾 910C 超节点架构进行深度硬件适配
• 实现算力资源 100% 入池与大模型高性能通信
• 充分发挥超节点在分布式训练中的网络优势

HAMi-vNPU-Core 软切分方案：

• 以用户态拦截方式实现显存与算力的细粒度共享
• 无需修改业务代码即可获得虚拟化能力
• 显著提升单卡承载任务数，最大化硬件利用效率

网络拓扑感知调度：

• 自研网络拓扑感知调度算法，感知机间与机内网络拓扑
• 将跨机调度概率降低 30%，有效破解分布式训练的网络瓶颈
• 该实践已在训练、推理等核心场景稳定运行

燧原科技：Kubernetes 生态与 GPU 集成实践

燧原科技马达展示了基于 GPU Operator + CDI + DRA 的全栈云原生集成方案。

燧原科技作为国产 GPU 厂商，正积极拥抱云原生生态，探索从设备驱动层到调度层的标准化管理路径。

技术方案：

• 基于 GPU Operator 实现标准化设备管理，自动化 GPU 节点的部署与运维
• 通过 CDI（Container Device Interface）实现不侵入业务容器的资源管理，业务镜像无需预装驱动
• DRA 技术实现动态资源分配，提升调度灵活性，适应不同工作负载的资源需求变化

该方案展示了国产 GPU 厂商如何通过云原生标准接口（Operator / CDI / DRA）与 Kubernetes 生态深度融合，为用户提供更简洁、更标准的 GPU 管理体验。

深信服：AI 算力网关算力优化与模型治理实践

深信服云 AI 总架构师 贾毫杰 分享了深信服 AI 算力网关产品在算力优化和模型治理过程中的实践经验。

贾毫杰指出，企业级 AI 算力治理不仅要关注资源调度本身，更要关注如何将每一分算力转化为客户可衡量的业务价值。

智能路由策略：

• 通过语义分析对用户请求进行智能分类
• 简单问题路由至低成本小模型，复杂问题路由至高性能大模型
• 在保证效果的前提下，实现算力成本的最优控制

模型治理：

• 前后安全护栏机制，确保模型输出的合规性与安全性
• 算力成本与效果的可视化度量，帮助客户量化 AI 投入产出比
• 多模型协同编排，形成灵活、高效的模型服务矩阵

该方案也包含了 HAMi 的落地实践，展示了算力虚拟化技术在 AI 算力网关场景中的价值。

博维智慧科技：GPU 虚拟化与集群管理实践

博维智慧科技研究员 欧彬凯 分享了博维创新研发部打造一键部署平台（OCDP）的研发历程。

博维团队在早期进行模型推理与训练时，发现现有平台操作繁琐且灵活性不足，难以满足内部研发与客户推理部署的弹性需求，因此决定自主研发一键部署平台。

核心痛点与解决方案：

• 显存碎片化：传统整卡分配模式下，小模型推理浪费大量显存。深度集成 HAMi 虚拟化技术后，实现 GPU 资源的细粒度切分与弹性调度，显著提升单卡利用率
• 监控盲区：虚拟化环境下的 GPU 监控不够直观。通过 HAMi 的监控能力，获得全面的资源使用可见性

实践成果：

• 通过与 HAMi 的深度整合，将复杂的底层算力封装为简单、高效的云原生服务
• 让 GPU 资产实现商业价值最大化，降低用户的 AI 部署门槛
• 形成"一键部署 + 弹性调度 + 统一管理"的完整能力闭环

核心技术趋势

本次 Meetup 汇聚了多位行业专家的深度思考，以下几个技术趋势尤为突出：

GPU 虚拟化与算力池化成为刚需： 从顺丰科技到招商银行，多家企业分享了通过 HAMi 实现 GPU 池化与虚拟化的实战经验。核心诉求一致：打破 GPU 独占模式，通过细粒度切分实现多任务复用，将集群 GPU 利用率从 40% 左右提升至 90%。显存超分、算力软切分、拓扑感知调度等高级特性已成为生产环境的标配需求。

异构算力统一管理加速落地： 英伟达、昇腾、燧原、寒武纪等多家芯片厂商正在积极拥抱云原生生态。HAMi 通过统一调度层屏蔽底层硬件差异，DRA（Dynamic Resource Allocation）技术成为异构算力管理的新方向。燧原科技展示了基于标准云原生接口的集成方案，招商银行则验证了多源异构算力统一纳管的完整技术闭环。

AI 算力治理从"能用"走向"用好"： 深信服的分享揭示了企业级 AI 算力治理的新维度——不仅要做资源调度，还要做智能路由与成本控制，通过语义分析实现模型级的算力优化，将每一分算力转化为可衡量的业务价值。