深度学习领域,取长补短的“缝合怪”往往最强,也超级吃香,比如今天推荐的这个方向:CNN+Transformer+Mamba。

近半年,CV/NLP顶会趋势很明显,这种混合架构正是如今工业落地的答案。这三者互补后的模型,可以用更少的显存,达到甚至超越纯Transformer的效果。举个栗子,发表于TGRS 2026上的LGMM-Net,为解决遥感CD的痛点,通过融合三者的优势,在四大公开数据集上全面超越现有SOTA方法。

如果你也对这方向感兴趣,想跟进,倒也不必从零开始刷论文,我已经筛选出了10篇CNN+Transformer+Mamba前沿文献,论文原文+代码已打包,可助你快速掌握研究动态,找到适合的切入点,搞定idea。

全部论文+开源代码需要的同学看文末

【TGRS 2026】LGMM-Net: A Local–Global Encoder and Mask Mamba Decoder Network for Remote Sensing Change Detection

研究方法:本文提出LGMM-Net遥感变化检测网络,编码器DLGPE结合多卷积CNN与双窗口Transformer注意力自适应动态分通道,并行提取局部细节与全局语义,解码器PMM基于自研MGD-SS2D方向扫描机制融合Mamba与空洞金字塔卷积,联合三类模块实现伪变化抑制与地物变化边界精准复原。

创新点:

  • 提出DLGPE编码器,动态软分割通道,结合CNN提取局部特征、Transformer注意力捕捉全局信息。

  • 设计PMM解码器,基于自研MGD-SS2D,融合Mamba定向建模与金字塔卷积优化边界检测。

  • 编解码协同融合CNN、Transformer、Mamba优势,搭配深度监督减少伪变化、提升检测精度。

研究价值:本文提出的LGMM-Net融合CNN、Transformer和Mamba三种网络优势,能够有效抵御光照、季节扰动带来的伪变化干扰,精准刻画地物变化边缘,在多类公开遥感数据集上取得最优效果,为高分辨率遥感变化检测提供了性能与效率兼顾的新思路。

MxT: Mamba x Transformer for Image Inpainting

研究方法:本文构建U型M×T图像修复网络,由混合模块串联搭建,模块内结合卷积优化的SRSA Transformer完成块级全局建模、带位置嵌入的Mamba实现像素级长序列依赖捕捉,并通过改进CBFN卷积前馈融合全局特征,协同CNN、Transformer、Mamba三类优势实现高质量图像补全。

创新点;

  • 提出M×T混合图像修复架构,首次组合Mamba与Transformer,分别负责像素、补丁双层级特征交互。

  • 设计SRSA轻量化注意力,借助卷积降维压缩计算开销,兼顾Transformer全局建模与局部细节提取能力。

  • 改进前馈网络为CBFN,在GDFN基础上增加全局均值广播,强化全局信息流通,进一步提升修复效果。

研究价值:论文提出M×T混合模型,借助自研混合模块融合Mamba与Transformer的互补优势,实现像素+补丁双层级特征交互学习,在CelebA-HQ、Places2数据集超越同期SOTA图像修复算法,兼具线性计算开销与跨分辨率泛化能力,为高效高清图像补全提供全新技术方案。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“222”获取全部方案+开源代码

码字不易,欢迎大家点赞评论收藏

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐