上海AILab发布智能算子迁移系统，多款国产芯片在公开数据集转化通过率可超90%

DeepLink_2025

365人浏览 · 2026-04-14 10:34:08

DeepLink_2025 · 2026-04-14 10:34:08 发布

算子开发与跨芯片适配难题，正成为制约国产芯片生态建设与算力效能释放的核心瓶颈。在第二届浦江学术年会上，上海人工智能实验室DeepLink团队联合昇腾毕昇编译器团队，正式发布了大模型赋能智能算子生成的全栈系统——KernelSwift，可提供指定芯片的Triton算子定制优化服务，打通了工具平台 — 算力硬件 — 基础大模型的协同闭环，实现从"人工手搓"到"智能生成"的范式跃迁，构建起智能算子生成的完整技术生态。

其核心优势在于：

以高级抽象与自动算子生成，将适配周期从数月压缩至小时级，为多元国产AI芯片提供"开箱即用"的高性能算子支持；
具备从简单算子到复杂算子的生成能力，算子性能甚至超越专家手工优化，并在公开数据集 Kernelbench 上实现 SOTA 级别的表现，场景覆盖语言大模型和科学大模型；
基于 KernelSwift+DLCompiler 实现编译器到算子生成全链路支撑，摆脱单一生态绑定；
与昇腾毕昇编译器团队合作，基于面向昇腾的编译优化开源组件AscendNPU IR完成与昇腾平台的对接，实现端到端算子生态迁。
基于书生Kernel-Smith的算子生成基座能力，进一步扩展了算子广场、自定义算子库、以及智能进化系统，支持高性能算子智能调优。

KernelSwift 在线体验链接： KernelSwift

黑盒自主优化，通过大模型极速生成高性能、高精度算子

将大模型用于Triton Kernel生成，难点不在“能不能写出一段正确的代码”，而在于“如何在可控约束下持续产出可编译、数值正确且性能提升的代码实现”。在实际工程场景中，让大模型直接输出 Triton Kernel 通常会遇到编译失败、数值不正确、性能不可控三类失败的情况。这类场景可抽象为一个黑盒优化任务，包含以下三类因素：

输入：一个作为“唯一真值来源”的参考实现与固定的调用/接口约束。
输出：在相同语义下，性能更优的 Triton 实现。
评估：由线上评测服务返回编译状态、正确性信号与性能指标。

KernelSwift 将大模型从单一的 “答案生成器” 重构为具备探索能力的 “自主优化算子引擎”，其核心逻辑是将大模型嵌入到一套进化式搜索框架中：由大模型负责产出多方向优化算子的候选方案，而框架的其余模块则承担起约束候选范围、评测方案有效性、筛选优质方向的职能。

具体而言，在候选生成环节，大模型会依据当前的优化上下文，输出新的算子候选 —— 既可以是对现有方案的小步局部修改，也能是基于需求的整体重写；为避免候选方案破坏算子的接口规范或调度逻辑，系统会通过归一化与约束机制，将候选内容限定在允许变更的范围内；多级评测反馈机制则进一步把算子的优化路径从 “不可用→可用→正确→更快” 拆解为分层的可量化信号，为大模型提供明确的改进指引；同时，数据库与选择机制会持续维护候选方案的多样性与当前最优解，以此决定下一轮探索的核心候选方向；最后，并行与调度模块既提升了整个搜索过程的吞吐效率，也能在并发场景下保障方案更新的正确性与实验结果的可复现性。

多级评测反馈，让算子优化 “步步有指引”

如果只给大模型 “对 / 错” 的二元反馈，迭代过程会非常低效，大多数候选止步于编译或正确性阶段，没有持续改进的方向。KernelSwift 搭建了四级评测体系，并控制了代码可变范围，把黑盒目标拆成可爬坡的阶梯，让算子生成效果持续迭代：

四级评测，层层递进

KernelSwift 将算子生成的 “黑盒任务” 拆解为从基础到高阶的四层阶梯式评测，既过滤无效候选、减少算力浪费，又为大模型提供精准的改进指引 —— 让算子从 “能跑” 逐步升级到“好用、耐用、跑得快”。

编译层：首先验证代码是否可编译，同时在失败时捕获完整诊断信息，以便为后续归因、提示词优化打基础；
有效性层：确认候选算子真的被框架实际应用，避免 “编译看似提交、实际未生效” 的假候选；
正确性层：区分 “运行时错误” 和 “接近正确但有差异” 的情况，对后者提供 “距离型” 信号（如数值偏差大小），让大模型能逐步逼近真值；
性能层：仅在正确性通过后测量性能，杜绝 “用错误换速度” 的无效优化。

这类分层的核心价值在于为优化迭代提供连续梯度式信号，显著提升收敛稳定性。此外，将失败样本结构化，为后续提示词迭代、检索增强与训练数据构造提供基础。

可控变更边界

大模型生成代码的最大风险不是“不够聪明”，而是修改了不应修改的部分，例如接口、调度、输出形状、边界保护逻辑等。为提高可控性与调试效率，需要将可变更范围限定为一个明确区域（例如“仅允许修改 Kernel 核心实现”），其余部分锁定。KernelSwift 支持部分范围变更的能力，在这个过程中，用户可选择部分重写模式，即让模型决策哪一部分可以做优化，例如grid，或者分块逻辑等等。

官方加速算子 + 专属经验沉淀，双库双向赋能

除核心优化能力外，KernelSwift 融入 “算子广场” 与 “自定义算子库” 双向赋能功能，进一步降低算子开发门槛、提升优化效率。

“算子广场” 作为 DeepLink 官方发布的优质算子资源池，汇聚了经过工程化验证、适配多硬件平台的高性能算子，全面支持 AI4S、LLM、CV、CNN 等多场景AI 需求，用户可直接调用或作为优化基准，实现 “即拿即用” 的高效开发。
“自定义算子库” 则支持用户上传其生成的算子代码与优化经验，通过 RAG 技术构建专属知识库，让 KernelSwift 的大模型快速学习用户场景的个性化优化逻辑 —— 无论是特定业务的定制化算子，还是针对专属硬件的适配方案，都能沉淀为可复用的资产，持续反哺后续优化任务，实现 “越用越贴合” 的个性化升级。

依托双库资源与核心优化框架，KernelSwift 可支持分钟级生成算子，并且经过反馈迭代过程，最佳情况下生成算子性能可提升50%；而针对 fused moe、page attention、flash attention 等大模型推理瓶颈算子，其生成的算子性能已无限接近专家手工优化水平，彻底打破 “高效生成与性能保障不可兼得” 的行业困境。两大功能既提供了官方认证的通用优质资源，又支持用户个性化经验沉淀，形成 “通用能力 + 专属适配” 的双重保障，让算子优化既高效又精准。

实践数据表现优异，全场景验证性能优化潜力凸显

权威基准评测：KernelBench三级别全面SOTA

KernelSwift参与业界权威的KernelBench全量级评测（Level-1/2/3），与OpenAI o3-pro、GPT-5 High、AutoTriton、KernelLLM、DeepSeek-R1等顶尖模型同台竞技，在编译成功率（COMP）、校正后通过率（RectCor）、平均加速比（Avg Speedup）三大核心维度全面领先。在三级别评测中均实现100%编译通过率，为所有参评模型中唯一达成全编译成功的系统，彻底解决"生成代码无法运行"的行业痛点。

评测原始数据，标红部分为KernelSwift在多个评测维度的具体表现

更详细的数据可参考下表内容：

评测维度	Level-1 (基础算子)	Level-2 (复杂算子)	Level-3 (大模型核心算子)
编译成功率 (Comp)	100%	100%	100%
校正后通过率 (RectCor)	97% (对比o3-pro可超过54%)	99% (对比o3-pro可超过48%)	98% (对比o3-pro可超过34%)
平均加速比 (Avg Speedup)	1.40 (o3-pro仅0.32)	1.22 (o3-pro仅0.27)	0.73 (o3-pro仅0.14)
显著加速算子数量 (FAST₁)	36个 (o3-pro仅7个)	60个 (o3-pro仅13个)	58个 (o3-pro仅12个)

此外，在框架适配、垂类模型适配等多场景、全维度的应用领域中，KernelSwift 以硬核数据、实打实的加速效果验证技术价值。

在主流框架与大模型适配场景中，KernelSwift 展现出极强的落地兼容性。在 LMdeploy 推理框架中，针对 Deepseek-V3.2 模型的分组路由算子进行专项优化，通过重构算子访存模式与并行策略，在不影响模型精度的前提下，实现模型端到端吞吐 2% 的稳定提升 —— 看似细微的增幅，在大规模推理部署中可转化为显著的算力成本节省。而在主流大模型（DeepSeek、Qwen）与主流芯片的适配测试中，核心算子 GroupGEMM 凭借对硬件特性的深度感知与优化，可达成 5 倍性能飞跃。
在垂直领域复杂场景中，KernelSwift 的优化潜力进一步凸显。在 AI4S 蛋白质结构预测这一高难度场景中，针对 15 个涉及复杂计算逻辑的核心算子，系统通过自动化搜索最优分块策略、访存优化方案，实现平均 4.17x 的加速比，大幅缩短蛋白质结构模拟的计算周期，为生命科学研究提供高效算力支撑。

从基础基准到产业落地，从通用场景到垂直领域，KernelSwift 的实测数据贯穿 “性能领先、适配广泛、效果稳定” 三大核心优势，既验证了技术路线的可行性，更展现出在实际生产环境中为客户降本增效的强大能力，成为推动 AI 算力效能升级的核心引擎。

全栈国产芯片支持：五大平台深度适配，转化通过率全面突破90%

KernelSwift不仅在国际主流平台实现SOTA，更通过DeepLink自研AI编译器DLCompiler的深度协同，实现了对昇腾、沐曦、寒武纪、海光、平头哥、天数智芯等多款国产芯片平台的全面支持，构建起覆盖"国际主流+国产全栈"的完整的算子生态体系。

DLCompilermp.weixin.qq.com/s?__biz=MzkzNDcyMDk1Mg==&mid=2247489722&idx=1&sn=7c8aa82c6255f154b62b7ac971ee233d&scene=21&poc_token=HO-Ty2mj3l4Ovgb_zKSvi_Lg5dz-PB6Meg3AnZKY

DLCompiler是DeepLink团队自研的AI编译器内核，专为国产芯片异构计算场景提供算子深度优化能力。KernelSwift通过和AI编译器DLCompiler的深度结合，实现了下一代基础模型模型核心算子在国产芯片上的0Day支持——即模型发布当天即可完成核心算子适配，为国产芯片适配与高效能发挥提供了强有力的支持，彻底打破"新模型发布即算力真空"的困局。

目前，KernelSwift在五款国产芯片平台已完成250+算子的系统性评测，覆盖KernelBench公开数据集、科学大模型（AI4S）、LLM核心算子三大关键场景：

总结

KernelSwift 把 “大模型偶尔写出好算子” 的偶然事件，变成 “持续、可复现、高性能” 的必然结果。其通过可控的优化迭代框架、分层的反馈体系、多样化的探索策略，让大模型真正成为算子优化的 “智能助手”，结合DeepLink芯片适配的基础和技术能力，既降低了底层优化的技术门槛，又持续推高 AI 系统的性能上限。未来，随着数据飞轮的持续转动，KernelSwift 还将在更多算子场景、更多硬件架构下释放更大价值。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

告别 AI 失忆！基于 Harness 记忆模型，解密 SpreadContext 多实例同步引擎

AtomGit开源社区

一颗10W小模块，为什么能撑起Physical AI的未来？

AtomGit开源社区

知识蒸馏在 sVLM 中的作用及实现方式

小型视觉语言模型（sVLM）知识蒸馏技术综述 sVLM通过视觉编码器+多模态适配器+小型LLM组成，旨在将大模型的多模态能力压缩至移动端设备。知识蒸馏的核心在于利用大模型Teacher的输出、特征和推理偏好训练小模型Student，使其在更低资源下保持视觉问答、OCR和复杂指令跟随等能力。关键技术包括：多模态蒸馏：同时迁移视觉和语言模态表示，改善视觉-语言对齐渐进式训练：采用DPT→SFT→D