3D分割-论文研读

1.UNETR: Transformers for 3D Medical Image Segmentation

数据集：BTCV (CT) MSD(MRI/CT)

总结：

1） UNETR专门用于三维分割，并直接利用体积数据；2） UNETR将transformers用作分段网络的主编码器，并通过跳过连接将其直接连接到解码器，而不是将其用作分段网络内的注意层。3）UNETR不依赖主干CNN生成输入序列，并直接利用标记化补丁。

一个3D输入体（例如，MRI图像的C=4通道）被分成一系列均匀的非重叠贴片，并使用线性层投影到嵌入空间。该序列与位置嵌入一起添加，并用作transformers模型的输入。提取transformers中不同层的编码表示，并通过跳过连接与解码器合并，以预测最终分段。

思路/原理：

把整体的模块✖️12 然后串联　Z12反卷积（上采样：从特征恢复图像）绿色块上采样在传统UNet结构里的位置是一样的（Z12经过了所有的绿色块是层数最深的特征越深的特征越能描述总体的特征越深位置信息越模糊越浅的特征保留了更多的位置信息）蓝色块是浅层（一个蓝色块把HWD扩大一倍或称为✖️2）黄色块用于计算

设计了一个新的结构就是做了3D分割

该网络由一个直接利用3D补丁的变换器编码器组成，并通过跳转连接与基于CNN的解码器相连。通过跳过连接与基于CNN的解码器相连。

2.TransBTS: Multimodal Brain Tumor Segmentation Using Transformer

论文地址：论文地址

代码：论文代码

数据集：BraTS 2019

总结：

直接将图像分割成补丁作为Transformer的token时，局部结构会被忽略。此外，对于超出2D的医疗体积数据(如3D MRI扫描)，连续切片之间的局部特征建模(即深度维度)对于体积分割也是至关重要的。如何设计一种神经网络，利用具有高度表现力的transformer，在空间和深度维度上有效地建模体积数据的局部和全局特征?

思路/原理：

受自然语言处理中注意机制的启发，通过将注意机制与CNN模型融合来克服局限性。Transformer 被设计成对序列到序列任务中的长距离相关性进行建模，并捕捉序列中任意位置之间的关系。这种架构是完全基于self-attention而提出的，完全不需要卷积。与以往基于CNN的方法不同，Transformer不仅在全局上下文建模方面功能强大，而且在大规模预训练的情况下，可以在后半部分任务上取得优异的效果。

基于transformer的框架在各种计算机视觉任务上也达到了最先进的性能。Vision transformer(ViT)将图像分割成块，并使用transformer将这些块之间的相关性建模为序列，从而在图像分类上获得令人满意的结果。在Transformer的帮助下，将目标检测视为一个集合预测任务。TransUNet 就是一项类似工作，它将ViT用于医学图像分割。

一个输入的MRI扫描 $X$ $\in$ $R^{C×H×W×D}$ ，空间分辨率为H×W，深度为D（片数），C通道（模数）。维度为D（切片数量）和C通道（模式数量），首先利用3D CNN来生成捕捉空间和深度信息的紧凑特征图，然后利用Transformer编码器来模拟全局空间中的长距离全局空间中的依赖性。之后，反复叠加上采样和卷积层，逐渐产生一个高分辨率的分割结果。ViT将图像分割成固定大小（16×16）的斑块，然后将每个斑块重塑为一个标记，将序列长度减少到162。对于三维体积数据，按照ViT，直接的标记化是将数据分割成三维斑块。然而，这种简单的策略使得Transformer无法在空间和深度维度上对图像的局部环境信息进行建模，以进行体积分割。TransBTS 将3×3×3的卷积块（strided convolution，stride=2），将输入图像逐渐编码为低分辨率的图像。该论文提出新的分割框架，有效地将Transformer纳入三维CNN，用于MRI的多模态脑瘤分割。由此产生的架构，TransBTS，不仅继承了三维CNN在局部环境信息建模方面的优势，而且还利用Transformer学习全局语义关联。全局语义关联性。在两个数据集上的实验结果（BraTS 2019和2020）验证了TransBTS的有效性。

Transformer利用self-attention机制进行全局（长距离）信息建模，近年来在自然语言处理和二维图像分类领域取得了成功。然而，局部和全局特征对于密集预测任务至关重要，特别是对于三维医学图像分割。这篇文章首次利用三维CNN中的Transformer进行MRI脑肿瘤分割，提出了一种基于编码-解码结构的TransBTS网络。为了获取局部的三维上下文信息，编码器首先利用三维CNN提取三维空间特征图。同时，对特征映射进行了细致的改造，将标记输入到Transformer中进行全局特征建模。解码器利用Transformer嵌入的特征，进行渐进式上采样来预测详细的分割图。

3.INS-Conv: Incremental Sparse Convolution for Online 3D Segmentation

论文地址：论文地址

代码：论文代码

总结：

先处理得到体素化的点云，然后将其作为输入，并在体素网格上进行 3D 卷积运算。以往的工作中采用的是密集的 3D 卷积，该类方法面临的一个重要问题是，对高维数据进行处理要消耗极高的计算成本，而且有时甚至无法对大规模的体素网格进行处理。为解决该问题，研究人员提出的稀疏卷积网络方法，利用 3D 点云的固有稀疏性来提取 3D 特征的骨干，有效突破了之前的限制，而且分割精度也进一步提高。之后，将 2D 和 3D 网络联合训练方法的提出使得性能进一步提升。

INS-Conv 方法中也提取了离线 3D 分割的经验，采用了类似于聚类的方法，使用稀疏卷积网络对提取的每点的特征进行聚类，并添加了一个阶段来将对多个帧的预测进行融合。

思路/原理：

INS-Conv，一个增量稀疏卷积网络，它可以实现在线准确的三维语义和实例分割。在三维重建的同时生成语义和实例标签，这对交互式AR/VR和机器人应用很有价值。机器人技术应用的价值。

该网络模型能够实现在线准确的3D语义和实例分割。

4.Self-Supervised Pre-Training of Swin Transformers for 3D Medical Image Analysis

论文地址：论文地址

论文代码: 论文代码

数据集：BTCV (CT) MSD(MRI/CT)

总结：该论文提出：

（1）一个新的基于三维 Transformer 的模型，Swin UNEt TRansformers（Swin UNETR），带有一个用于自监督的预训练的分层编码器。

（2）用于学习人体解剖学基本模式的定制代理任务。

思路/原理：

直接利用3D补丁，并通过不同分辨率的跳过连接与基于CNN的解码器相连。

5.UTNet: A Hybrid Transformer Architecture for Medical Image Segmentation

论文地址：论文地址

论文代码:论文代码

数据集：Multi-Centre, Multi-Vendor & Multi-Disease Cardiac Image Segmentation Challenge

在语义分割上，FCN 这类卷积的编码器-解码器架构衍生出的模型在过去几年取得了实质性进展，但这类模型存在两个局限。第一，卷积仅能从邻域像素收集信息，缺乏提取明确全局依赖性特征的能力；第二，卷积核的大小和形状往往是固定的，因此它们不能灵活适应输入的图像或其他内容。相反，Transformer architecture 由于自注意力机制具有捕获全局依赖特征的能力，且允许网络根据输入内容动态收集相关特征。

Transformer 架构的训练需要的更大的开销，因为自注意力机制（self-attention）在序列长度方面具有的时间和空间复杂度。基于此，标准的 self-attention 大多数以 patch-wise 方式应用到模型中，比如使用 16 × 16 这种小扁平图像块作为输入序列，或者在来自 CNN 主干的特征图之上对图像进行编码，这些特征图一般是下采样后的低分辨率图像。这里问题就出来了，对于医学图像分割任务目标位置敏感的特殊性，一些欠分割或者过分割的区域都在目标周围，往往需要高分辨率特征。此外，有些实验论证，在 ImageNet 上进行了预训练，Transformer 要比 ResNet 差，Transformer 真的能适应医学图像这种小数据集分割任务吗？

为了解决上面的问题，文章中提出的 U-Net 混合 Transformer 网络：UTNet，它整合了卷积和自注意力策略用于医学图像分割任务。应用卷积层来提取局部强度特征，以避免对 Transformer 进行大规模的预训练，同时使用自注意力来捕获全局特征。为了提高分割质量，还提出了一种 efficient self-attention，在时间和空间上将整体复杂度从 $O（n^2）$ 显着降低到接近 O(n)。此外，在 self-attention 模块中使用相对位置编码来学习医学图像中的内容-位置关系。

Transformer 建立在多头自注意机制 (MHSA) 模块上，MHSA 是由多个 Self-Attention 组成的。下图是 Self-Attention 的结构，在计算的时候需要用到矩阵 Q(查询)，K(键值)，V(值)。在实际中，Self-Attention 接收的是输入(单词的表示向量 x 组成的矩阵 X) 或者上一个 Encoder block 的输出。而 Q,K,V 是通过 Self-Attention 的输入进行线性变换得到的。

得到矩阵 Q, K, V 之后就可以计算出 Self-Attention 的输出了，计算的公式如下。其中 d 是 Q,K 矩阵的列数（向量维度），公式中计算矩阵 Q 和 K 每一行向量的内积，为了防止内积过大，因此除以 d 的平方根。将 Q, K, V 展平并转置为大小为 n × d 的序列，其中 n = HW。P ∈ Rn×n 被命名为上下文聚合矩阵，用作权重以收集上下文信息。

$Attention （Q，K，V）=softmax（\frac{QK^T }{\sqrt{d} } ）V$ 5-1

通过这种方式，self-attention 本质上具有全局感受野，擅长捕捉全局依赖。此外，上下文聚合矩阵可以适应输入内容，以实现更好的特征聚合。需要关注的是，n×d 矩阵的点乘会导致 O(n2d) 复杂度。通常，当特征图的分辨率很大时，n 远大于 d，因此序列长度 n 在自注意力计算中占主导地位，这使得高分辨率特征图中应用自注意力是不可行的，例如对于 16 × 16 特征图，n = 256，对于 128 × 128 特征图，n = 16384。这一点在本篇笔记的概述中提到过。

主要思想很简单，是将 K 和 V 矩阵做了一个 Low-dimension Embedding 达到减小计算量的目的，对应的上下文聚合矩阵 P 的 size 也会被修改。通过这样做，可以把复杂度降低到 O(nkd)。相当于，这里我们可以做任意下采样操作，例如平均/最大池化或带步长卷积操作。比如，使用 1×1 卷积，然后使用双线性插值对特征图进行下采样，缩小后的 size 是可以推断的。

Transformer 的相对位置编码大概作用是让像素间保持空间位置关系（从ViT的实验看，去掉 position embedding 后，性能会下降3个点以上），对于图像就是保持二维信息，它对于图像任务来讲很重要。像目前的相对位置编码设计，都算是将位置编码整合到了 Attention 的定义中去了，没有显式地使用绝对位置编码。读者们应该可以发现 2.2 的 MHSA 图里，在 softmax 之前的 pair-wise attention logit 计算中使用了像素 i 和 j 的位置编码，具体的计算如下

$l_{i,j} =\frac{q_{i}^T }{\sqrt{d} } (k_{j}+r_{j_{x}-i_{x} }^W+ r_{j_{y}-i_{y} }^H )$

相应的，self-attention 的计算公式又需要做修正了，和之前的区别就是相对宽度和高度是在 low-dimensional projection （低维投影）之后计算的。对 5-1的高效 self-attention 修正后的计算方式如下。

$Attention （Q，K，V）=softmax（\frac{QK^T+S_{rel}^H+S_{rel}^W }{\sqrt{d} } ）V$

如何把 Transformer 的 encoder 和 decoder 合理加入到主干 U-Net 中

如图所示 UTNet 结构图，整体上还是保持 U 型。(b) 是一个经典的残差块，传统的 U-Net 改进方法也是这么做的，这样也可以提高分割任务的准确率，避免网络深度带来的梯度爆炸和梯度消失等问题。 (c) 是一个标准的 Transformer Decoder 设计。可以发现，遵循了 U-Net 的标准设计，但将每个构建块的最后一个卷积（最高的除外）替换为 2.2 的 Transformer 模块。此外，低三层的跨层连接也被替换为了 Transformer Decoder

这种混合架构可以利用卷积图像的归纳偏差来避免大规模预训练，以及 Transformer 捕获全局特征关系的能力。由于错误分割的区域通常位于感兴趣区域的边界，高分辨率的上下文信息可以在分割中发挥至关重要的作用。因此，重点放在了自我注意模块上，这使得有效处理大尺寸特征图成为可能。没有将自注意力模块简单地集成到来自 CNN 主干的特征图之上，而是将 Transformer 模块应用于编码器和解码器的每个级别，以从多个尺度收集长期依赖关系。请注意，没有在原始分辨率上应用 Transformer，因为在网络的非常浅层中添加 Transformer 模块对实验没有帮助，但会引入额外的计算。一个可能的原因是网络的浅层更多地关注详细的纹理，其中收集全局上下文特征效果肯定不理想。

最后编辑于：2022.08.17 18:15:21

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,835评论 4赞 364
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,598评论 1赞 295
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,569评论 0赞 244
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,159评论 0赞 213
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,533评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,710评论 1赞 222
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,923评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,674评论 0赞 203
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,421评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,622评论 2赞 245
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,115评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,428评论 2赞 254
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,114评论 3赞 238
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,097评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,875评论 0赞 197
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,753评论 2赞 276
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,649评论 2赞 271

3D分割-论文研读

推荐阅读更多精彩内容