YOLO26 改进、魔改｜小波变换卷积层（WTConv）以小波变换实现对数级参数增长的超大感受野，同步提取多频带特征，提升 CNN 的形状偏向性、鲁棒性与多任务性能，即插即用替换深度卷积

一勺帅汤329

627人浏览 · 2026-03-23 09:57:39

一勺帅汤329 · 2026-03-23 09:57:39 发布

近年来视觉 Transformer 凭借自注意力实现全局感受野，在多项视觉任务上超越传统 CNN，而 CNN 单纯放大卷积核会快速陷入过参数化与性能饱和，难以高效获得全局感受野；同时传统卷积偏向高频纹理特征，对低频形状信息捕捉不足，小波变换作为经典时频分析工具，可在保留空间分辨率的同时实现多频带分解，为突破 CNN 感受野与参数效率瓶颈提供了信号处理层面的可行路径，WTConv 正是在此背景下提出的轻量化大感受野卷积方案。

1.WTConv原理

WTConv 以小波变换为核心，将输入特征经级联小波分解为低频与多方向高频分量，在各频带特征上采用小核深度卷积进行处理，再通过逆小波变换重建输出；其关键优势在于感受野随分解层级指数级扩大，而参数量仅随层级线性增长，实现超大感受野且无过参数化，同时强化低频形状特征提取，兼顾空间局部性与频域多尺度特性，可直接替换现有 CNN 中的深度卷积层。

多级小波分解：以 Haar 小波为基础，对输入特征递归分解，每级输出 1 个低频子带与 3 个高频子带，逐级下采样并拓宽感受野。
频域小核卷积：在各级高低频子带分别采用 3×3/5×5 小核深度卷积，独立学习各频带特征，计算量低且参数可控。
逆小波重建：利用线性叠加特性，自底向上融合各级频域卷积结果，经逆小波变换恢复原尺度特征图，输出多频带增强的大感受野特征。
通道加权：对不同频带输出做通道维度缩放，自适应平衡高低频贡献，提升特征表达稳定性。

2. YOLO与WTConv的结合

将 WTConv 嵌入 YOLO，可在保持轻量化与实时性的前提下，大幅拓宽网络感受野，兼顾多尺度目标的细节与全局特征，提升小目标、密集目标与复杂背景下的检测精度。其高低频分离特性增强模型对形状的判别能力，降低纹理干扰，同时参数量与计算量增幅极小，不影响端侧部署与推理速度。

3.WTConv代码部分

YOLO26 杀疯了：性能 Double + 无 NMS/DFL，更快更强更轻量的检测「新爹」_哔哩哔哩_bilibili

YOLO26 杀疯了：性能 Double + 无 NMS/DFL+小目标标签分配策略，更快更强更轻量的小目标检测_哔哩哔哩_bilibili

用一篇论文教您如何使用YOLOv11改进模块写一篇1、2区论文_哔哩哔哩_bilibili

代码获取：YOLOv8_improve/YOLOV12.md at master · tgf123/YOLOv8_improve · GitHub

4. WTConv引入到YOLO26中

第一: 先新建一个change_model，如下图如所示。

将代码复制到change_model里面

第二：在task.py中导入包

第三：在task.py中的模型配置部分下面代码

第四：将模型配置文件复制到YOLOV11.YAMY文件中

第五：运行代码


from ultralytics.models import NAS, RTDETR, SAM, YOLO, FastSAM, YOLOWorld

if __name__=="__main__":

    # 使用自己的YOLOv12.yamy文件搭建模型并加载预训练权重训练模型
    model = YOLO(r"/home/tgf/tgf/yolo/model/YOLO26/ultralytics/cfg/models/26/yolo26_WTConv.yaml")
        # .load(r'E:\Part_time_job_orders\YOLO_NEW\YOLOv12\yolo12n.pt')  # build from YAML and transfer weights

    results = model.train(data=r"/home/tgf/tgf/yolo/model/YOLO26/ultralytics/cfg/datasets/VOC_my.yaml",
                          epochs=300,
                          imgsz=640,
                          batch=32,
                          optimizer="MuSGD",
                          # cache = False,
                          # single_cls = False,  # 是否是单类别检测
                          # workers = 0,
                         # resume=r'D:/model/yolov8/runs/detect/train/weights/last.pt',
                          amp = True
                          )

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

魔音漫创源码解析：扩展指南：如何在 moyin-creator 中接入自定义 AI 大模型供应商？

本文介绍了如何为开源AI影视生产工具魔音漫创(MoyinCreator)接入自定义AI大模型的方法。主要内容包括：1)分析核心架构，指出AI调用通过适配器模式实现；2)详细步骤：定义供应商类型、编写Provider适配器、注册工厂类、配置前端界面；3)测试验证方法。该方案采用模块化设计，支持灵活接入不同AI模型，不仅适用于大语言模型，也可扩展至图像和视频生成接口。文章还提供了流式传输优化等实用建议

AtomGit开源社区

把 BAPI 里的校验能力接进 RAP，Validation、Simulation Mode 与消息回传的完整落地思路

AtomGit开源社区

基于 API 的商品类目自动分类：NLP + 规则引擎的混合方案

电商商品类目分类面临人工效率低、规则泛化差、NLP模型不可控等痛点。本文提出API服务化架构+NLP语义模型+规则引擎的混合方案：规则引擎精准处理标准商品，NLP模型处理模糊语义，后置规则校验纠偏，通过标准化API输出统一分类结果。该方案实现毫秒级响应，支持多业务系统对接，形成分类-审核-迭代闭环，有效提升分类精度与效率，适用于跨境铺货、供应链管理等场景，解决了传统方案的泛化弱、迭代慢等问题。