《HC-Mamba: Vision MAMBA with Hybrid Convolutional Techniques for Medical Image Segmentation》

vision

pytorch/vision: 一个基于 PyTorch 的计算机视觉库，提供了各种计算机视觉算法和工具，适合用于实现计算机视觉应用程序。

项目地址：https://gitcode.com/gh_mirrors/vi/vision

免费下载资源

????y?__?y

1088人浏览 · 2024-07-23 21:05:59

????y?__?y · 2024-07-23 21:05:59 发布

论文：[2405.05007] HC-Mamba: Vision MAMBA with Hybrid Convolutional Te chniques for Medical Image Segmentation (arxiv.org)https://arxiv.org/abs/2405.05007

摘要

自动医学图像分割技术有潜力加速病理诊断，提高病人护理的效率。然而，医学图像通常具有复杂的纹理和结构，模型在处理这些图像时常面临由于下采样导致的图像分辨率降低和信息丢失的问题。为了解决这一问题，作者提出了HC-Mamba，这是一种基于现代状态空间模型Mamba的新型医学图像分割模型。具体来说，HC-Mamba模型引入了扩张卷积技术，以不增加计算成本的方式捕获更广泛的上下文信息。此外，HC-Mamba模型采用深度可分离卷积，显著减少了模型的参数数量和计算能力。通过结合扩张卷积和深度可分离卷积，HC-Mamba能够在保持高性能的同时，以更低的计算成本处理大规模医学图像数据。

拟解决的问题：解决医学图像分割中由于下采样导致的图像分辨率降低和信息丢失问题。

主要贡献

我们提出了一种用于医学图像分割的混合卷积 Mamba 模型 (HC Mamba)，它结合了针对医学图像优化的多种卷积方法来提高模型的感受野并减少模型的参数。
我们提出了 HC-SSM 模块来增强模型提取特征的能力
我们对所提出的模型进行了广泛的实验评估。结果表明，我们的模型具有较高的准确度（94.84%）、mIoU（8.72%）和 DSC 的有效性（89.26%）。

方法

HC-Mamba模型结构：包括patch embedding layer, HC-SSM Block和patch merging layer。
SS2D模块：HC-SSM块的核心，包括扫描扩展、S6块和扫描合并，提供强大的特征提取和处理能力。
HC-SSM块：基于SS2D的双分支特征提取模块，结合了SSM分支和HC-Conv分支。
损失函数：设计了一个综合加权损失函数，结合了mIoU损失、Dice损失和边界损失，以全面优化分割模型的性能。

1. SS2D

HC-SSM块的核心，包括扫描扩展、S6块和扫描合并。

扫描扩展（Scan Expansion）：

该步骤将输入图像分解为沿着四个方向（上、下、左、右）的独立序列。
确保了广泛的空间信息覆盖，并实现多方向特征捕获。

S6块（S6 Block）：

S6块使用选择性机制对状态空间模型的参数施加选择，以准确识别和提取有用信息，同时过滤掉不相关部分。
输入特征的格式为[B, L, D]，其中B是批量大小，L是序列长度，D是特征维度。
特征首先通过一个线性层进行转换，然后应用状态空间模型中的更新和输出方程，以产生最终的输出特征。

扫描合并（Scan Merging）：

扫描和合并操作重新配置这些转换后的序列，产生一个与原始输入图像尺寸匹配的输出图像。
通过这一系列细致的操作，SS2D模块为HC-SSM块提供了强大的特征提取和处理能力。

2. HC-SSM

双分支特征提取模块：

HC-SSM块基于SS2D模块，采用双分支特征提取方法。
输入首先被分割成两个等大小的子输入，然后分别送入两个分支模块：SSM分支和HC-Conv分支。

SSM分支：

输入经过层归一化后进入SS2D模块。
输入特征首先通过线性映射进行维度增强，然后通过深度可分离卷积层，保持维度的同时提高特征的局部化处理能力。
应用SiLU激活函数，引入非线性转换，增强模型的表达能力。
最后，处理后的特征重新映射回原始特征空间，获得SSM分支的输出。

HC-Conv分支：

在HC-Conv分支中，引入扩张卷积来扩展卷积核的感知范围，捕获更广泛的上下文信息。
这种技术特别适合医学图像，因为它提高了模型对图像不同尺度结构的感知能力，同时不丢失图像细节。
使用扩展策略，扩张率为1,2,3,1，以避免不连续数据引起的网格效应。
与2,2,2的扩张率相比，1,2,3策略可以确保感知场的连续性。

vision

pytorch/vision: 一个基于 PyTorch 的计算机视觉库，提供了各种计算机视觉算法和工具，适合用于实现计算机视觉应用程序。

项目地址：https://gitcode.com/gh_mirrors/vi/vision

输出合并：

两个分支的输出沿特征图的通道维度合并。
使用无参数的轻量级操作——通道洗牌操作，促进两个子输入通道之间的信息交互。

3. 损失函数

采用了一个综合加权损失函数，结合了mIoU损失、Dice损失和边界损失，以全面优化分割模型的性能。

其中：

mIoU损失函数用于评估分割区域的重叠度。其表达式为：

其中：

Dice损失函数用于衡量分割区域的相似度。其表达式为：

其中：

𝑃P 是预测的像素集合。
𝐺G 是真实标签的像素集合。

边界损失函数专注于分割边界的准确性。其表达式为：

其中：

通过将这三个损失函数结合并加权，HC-Mamba模型能够同时优化分割区域的重叠度、相似度和边界准确性，从而提高整体的分割性能。这种方法使得模型在医学图像分割任务中能够更好地处理复杂的图像结构和细节，提高分割的准确性和可靠性。

结论

HC-Mamba模型在医学图像分割任务上表现出色，与一些最新的基于Mamba的模型和一些最先进的模型相比具有竞争力。实验结果表明，HC-Mamba在所有测试数据集上都展现出了竞争性的表现，证明了其在医学图像分割中的有效性和实用性。作者还提出了未来的研究方向，包括进一步探索HC-Mamba在其他成像技术获取的医学数据集上的潜力，以及使用可解释的人工智能来分析HC-Mamba的决策机制。

阅读全文

AI总结

GitHub 加速计划 / vi / vision

下载

pytorch/vision: 一个基于 PyTorch 的计算机视觉库，提供了各种计算机视觉算法和工具，适合用于实现计算机视觉应用程序。

最近提交(Master分支：19 天前 )

95f10a4e 1 天前

ef4718ad 7 天前

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

Dify：开源的大型语言模型应用开发平台深度解析

GitCode 开源社区

大语言模型的知识蒸馏研究综述

摘要——在大语言模型（LLMs）时代，知识蒸馏（KD）成为将GPT-4等领先专有大模型的高级能力迁移至LLaMA、Mistral等开源模型的核心方法。随着开源LLMs的蓬勃发展，KD不仅在这些模型的压缩过程中发挥关键作用，还能通过自我教学机制促进模型迭代优化。本文系统综述了KD在LLM领域的三重功能：向小模型传递高阶知识、实现模型压缩以及推动自我提升。研究围绕算法、技能和垂直领域三大支柱展开——深