算子开发与跨芯片适配难题,正成为制约国产芯片生态建设与算力效能释放的核心瓶颈。在第二届浦江学术年会上,上海人工智能实验室DeepLink团队联合昇腾毕昇编译器团队,正式发布了大模型赋能智能算子生成的全栈系统——KernelSwift,可提供指定芯片的Triton算子定制优化服务,打通了工具平台 — 算力硬件 — 基础大模型的协同闭环,实现从"人工手搓"到"智能生成"的范式跃迁,构建起智能算子生成的完整技术生态。

其核心优势在于:

  1. 以高级抽象与自动算子生成,将适配周期从数月压缩至小时级,为多元国产AI芯片提供"开箱即用"的高性能算子支持;
  2. 具备从简单算子到复杂算子的生成能力,算子性能甚至超越专家手工优化,并在公开数据集 Kernelbench 上实现 SOTA 级别的表现,场景覆盖语言大模型和科学大模型;
  3. 基于 KernelSwift+DLCompiler 实现编译器到算子生成全链路支撑,摆脱单一生态绑定;
  4. 与昇腾毕昇编译器团队合作基于面向昇腾的编译优化开源组件AscendNPU IR完成与昇腾平台的对接,实现端到端算子生态迁
  5. 基于书生Kernel-Smith的算子生成基座能力,进一步扩展了算子广场、自定义算子库、以及智能进化系统,支持高性能算子智能调优。
KernelSwift 在线体验链接: KernelSwift


黑盒自主优化,通过大模型极速生成高性能、高精度算子

将大模型用于Triton Kernel生成,难点不在“能不能写出一段正确的代码”,而在于“如何在可控约束下持续产出可编译、数值正确且性能提升的代码实现”。在实际工程场景中,让大模型直接输出 Triton Kernel 通常会遇到编译失败、数值不正确、性能不可控三类失败的情况。这类场景可抽象为一个黑盒优化任务,包含以下三类因素:

  • 输入:一个作为“唯一真值来源”的参考实现与固定的调用/接口约束。
  • 输出:在相同语义下,性能更优的 Triton 实现。
  • 评估:由线上评测服务返回编译状态、正确性信号与性能指标。


KernelSwift 将大模型从单一的 “答案生成器” 重构为具备探索能力的 “自主优化算子引擎”,其核心逻辑是将大模型嵌入到一套进化式搜索框架中:由大模型负责产出多方向优化算子的候选方案,而框架的其余模块则承担起约束候选范围、评测方案有效性、筛选优质方向的职能。

具体而言,在候选生成环节,大模型会依据当前的优化上下文,输出新的算子候选 —— 既可以是对现有方案的小步局部修改,也能是基于需求的整体重写;为避免候选方案破坏算子的接口规范或调度逻辑,系统会通过归一化与约束机制,将候选内容限定在允许变更的范围内;多级评测反馈机制则进一步把算子的优化路径从 “不可用→可用→正确→更快” 拆解为分层的可量化信号,为大模型提供明确的改进指引;同时,数据库与选择机制会持续维护候选方案的多样性与当前最优解,以此决定下一轮探索的核心候选方向;最后,并行与调度模块既提升了整个搜索过程的吞吐效率,也能在并发场景下保障方案更新的正确性与实验结果的可复现性。

多级评测反馈,让算子优化 “步步有指引”

如果只给大模型 “对 / 错” 的二元反馈,迭代过程会非常低效,大多数候选止步于编译或正确性阶段,没有持续改进的方向。KernelSwift 搭建了四级评测体系,并控制了代码可变范围,把黑盒目标拆成可爬坡的阶梯,让算子生成效果持续迭代:

四级评测,层层递进

KernelSwift 将算子生成的 “黑盒任务” 拆解为从基础到高阶的四层阶梯式评测,既过滤无效候选、减少算力浪费,又为大模型提供精准的改进指引 —— 让算子从 “能跑” 逐步升级到“好用、耐用、跑得快”。

  1. 编译层:首先验证代码是否可编译,同时在失败时捕获完整诊断信息,以便为后续归因、提示词优化打基础;
  2. 有效性层:确认候选算子真的被框架实际应用,避免 “编译看似提交、实际未生效” 的假候选;
  3. 正确性层:区分 “运行时错误” 和 “接近正确但有差异” 的情况,对后者提供 “距离型” 信号(如数值偏差大小),让大模型能逐步逼近真值;
  4. 性能层:仅在正确性通过后测量性能,杜绝 “用错误换速度” 的无效优化。

这类分层的核心价值在于为优化迭代提供连续梯度式信号,显著提升收敛稳定性。此外,将失败样本结构化,为后续提示词迭代、检索增强与训练数据构造提供基础。

可控变更边界

大模型生成代码的最大风险不是“不够聪明”,而是修改了不应修改的部分,例如接口、调度、输出形状、边界保护逻辑等。为提高可控性与调试效率,需要将可变更范围限定为一个明确区域(例如“仅允许修改 Kernel 核心实现”),其余部分锁定。KernelSwift 支持部分范围变更的能力,在这个过程中,用户可选择部分重写模式,即让模型决策哪一部分可以做优化,例如grid,或者分块逻辑等等。

官方加速算子 + 专属经验沉淀,双库双向赋能

除核心优化能力外,KernelSwift 融入 “算子广场” 与 “自定义算子库” 双向赋能功能,进一步降低算子开发门槛、提升优化效率。

  • “算子广场” 作为 DeepLink 官方发布的优质算子资源池,汇聚了经过工程化验证、适配多硬件平台的高性能算子,全面支持 AI4S、LLM、CV、CNN 等多场景AI 需求,用户可直接调用或作为优化基准,实现 “即拿即用” 的高效开发。
  • “自定义算子库” 则支持用户上传其生成的算子代码与优化经验,通过 RAG 技术构建专属知识库,让 KernelSwift 的大模型快速学习用户场景的个性化优化逻辑 —— 无论是特定业务的定制化算子,还是针对专属硬件的适配方案,都能沉淀为可复用的资产,持续反哺后续优化任务,实现 “越用越贴合” 的个性化升级。

依托双库资源与核心优化框架,KernelSwift 可支持分钟级生成算子,并且经过反馈迭代过程,最佳情况下生成算子性能可提升50%;而针对 fused moepage attentionflash attention 等大模型推理瓶颈算子,其生成的算子性能已无限接近专家手工优化水平,彻底打破 “高效生成与性能保障不可兼得” 的行业困境。两大功能既提供了官方认证的通用优质资源,又支持用户个性化经验沉淀,形成 “通用能力 + 专属适配” 的双重保障,让算子优化既高效又精准。

实践数据表现优异,全场景验证性能优化潜力凸显

权威基准评测:KernelBench三级别全面SOTA

KernelSwift参与业界权威的KernelBench全量级评测(Level-1/2/3),与OpenAI o3-pro、GPT-5 High、AutoTriton、KernelLLM、DeepSeek-R1等顶尖模型同台竞技,在编译成功率(COMP)、校正后通过率(RectCor)、平均加速比(Avg Speedup)三大核心维度全面领先。在三级别评测中均实现100%编译通过率,为所有参评模型中唯一达成全编译成功的系统,彻底解决"生成代码无法运行"的行业痛点。

评测原始数据,标红部分为KernelSwift在多个评测维度的具体表现

更详细的数据可参考下表内容:

评测维度 Level-1 (基础算子) Level-2 (复杂算子) Level-3 (大模型核心算子)
编译成功率 (Comp) 100% 100% 100%
校正后通过率 (RectCor) 97% (对比o3-pro可超过54%) 99% (对比o3-pro可超过48%) 98% (对比o3-pro可超过34%)
平均加速比 (Avg Speedup) 1.40 (o3-pro仅0.32) 1.22 (o3-pro仅0.27) 0.73 (o3-pro仅0.14)
显著加速算子数量 (FAST₁) 36个 (o3-pro仅7个) 60个 (o3-pro仅13个) 58个 (o3-pro仅12个)


此外,在框架适配、垂类模型适配等多场景、全维度的应用领域中,KernelSwift 以硬核数据、实打实的加速效果验证技术价值。

  • 在主流框架与大模型适配场景中,KernelSwift 展现出极强的落地兼容性。在 LMdeploy 推理框架中,针对 Deepseek-V3.2 模型的分组路由算子进行专项优化,通过重构算子访存模式与并行策略,在不影响模型精度的前提下,实现模型端到端吞吐 2% 的稳定提升 —— 看似细微的增幅,在大规模推理部署中可转化为显著的算力成本节省。而在主流大模型(DeepSeek、Qwen)与主流芯片的适配测试中,核心算子 GroupGEMM 凭借对硬件特性的深度感知与优化,可达成 5 倍性能飞跃。
  • 在垂直领域复杂场景中,KernelSwift 的优化潜力进一步凸显。在 AI4S 蛋白质结构预测这一高难度场景中,针对 15 个涉及复杂计算逻辑的核心算子,系统通过自动化搜索最优分块策略、访存优化方案,实现平均 4.17x 的加速比,大幅缩短蛋白质结构模拟的计算周期,为生命科学研究提供高效算力支撑。

从基础基准到产业落地,从通用场景到垂直领域,KernelSwift 的实测数据贯穿 “性能领先、适配广泛、效果稳定” 三大核心优势,既验证了技术路线的可行性,更展现出在实际生产环境中为客户降本增效的强大能力,成为推动 AI 算力效能升级的核心引擎。

全栈国产芯片支持:五大平台深度适配,转化通过率全面突破90%

KernelSwift不仅在国际主流平台实现SOTA,更通过DeepLink自研AI编译器DLCompiler的深度协同,实现了对昇腾、沐曦、寒武纪、海光、平头哥、天数智芯等多款国产芯片平台的全面支持,构建起覆盖"国际主流+国产全栈"的完整的算子生态体系。

DLCompilermp.weixin.qq.com/s?__biz=MzkzNDcyMDk1Mg==&mid=2247489722&idx=1&sn=7c8aa82c6255f154b62b7ac971ee233d&scene=21&poc_token=HO-Ty2mj3l4Ovgb_zKSvi_Lg5dz-PB6Meg3AnZKY

DLCompiler是DeepLink团队自研的AI编译器内核,专为国产芯片异构计算场景提供算子深度优化能力。KernelSwift通过和AI编译器DLCompiler的深度结合,实现了下一代基础模型模型核心算子在国产芯片上的0Day支持——即模型发布当天即可完成核心算子适配,为国产芯片适配与高效能发挥提供了强有力的支持,彻底打破"新模型发布即算力真空"的困局。

目前,KernelSwift在五款国产芯片平台已完成250+算子的系统性评测,覆盖KernelBench公开数据集、科学大模型(AI4S)、LLM核心算子三大关键场景:

总结

KernelSwift 把 “大模型偶尔写出好算子” 的偶然事件,变成 “持续、可复现、高性能” 的必然结果。其通过可控的优化迭代框架、分层的反馈体系、多样化的探索策略,让大模型真正成为算子优化的 “智能助手”,结合DeepLink芯片适配的基础和技术能力,既降低了底层优化的技术门槛,又持续推高 AI 系统的性能上限。未来,随着数据飞轮的持续转动,KernelSwift 还将在更多算子场景、更多硬件架构下释放更大价值。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐