3D分割-论文研读

1.UNETR: Transformers for 3D Medical Image Segmentation

论文地址:论文地址

代码:论文代码

数据集:BTCV (CT) MSD(MRI/CT)

总结:

1) UNETR专门用于三维分割,并直接利用体积数据;2) UNETR将transformers用作分段网络的主编码器,并通过跳过连接将其直接连接到解码器,而不是将其用作分段网络内的注意层。3)UNETR不依赖主干CNN生成输入序列,并直接利用标记化补丁。

一个3D输入体(例如,MRI图像的C=4通道)被分成一系列均匀的非重叠贴片,并使用线性层投影到嵌入空间。该序列与位置嵌入一起添加,并用作transformers模型的输入。提取transformers中不同层的编码表示,并通过跳过连接与解码器合并,以预测最终分段。

思路/原理:

把整体的模块✖️12 然后串联  Z12反卷积(上采样:从特征恢复图像)绿色块上采样在传统UNet结构里的位置是一样的(Z12经过了所有的绿色块 是层数最深的特征 越深的特征越能描述总体的特征 越深位置信息越模糊 越浅的特征保留了更多的位置信息) 蓝色块是浅层(一个蓝色块把HWD扩大一倍或称为✖️2)黄色块用于计算


设计了一个新的结构 就是做了3D分割
该网络由一个直接利用3D补丁的变换器编码器组成,并通过跳转连接与基于CNN的解码器相连。通过跳过连接与基于CNN的解码器相连。

2.TransBTS: Multimodal Brain Tumor Segmentation Using Transformer

论文地址:论文地址

代码:论文代码

数据集:BraTS 2019

总结:

直接将图像分割成补丁作为Transformer的token时,局部结构会被忽略。此外,对于超出2D的医疗体积数据(如3D MRI扫描),连续切片之间的局部特征建模(即深度维度)对于体积分割也是至关重要的。如何设计一种神经网络,利用具有高度表现力的transformer,在空间和深度维度上有效地建模体积数据的局部和全局特征?

思路/原理:

受自然语言处理中注意机制的启发,通过将注意机制与CNN模型融合来克服局限性。Transformer 被设计成对序列到序列任务中的长距离相关性进行建模,并捕捉序列中任意位置之间的关系。这种架构是完全基于self-attention而提出的,完全不需要卷积。与以往基于CNN的方法不同,Transformer不仅在全局上下文建模方面功能强大,而且在大规模预训练的情况下,可以在后半部分任务上取得优异的效果。

基于transformer的框架在各种计算机视觉任务上也达到了最先进的性能。Vision transformer(ViT)将图像分割成块,并使用transformer将这些块之间的相关性建模为序列,从而在图像分类上获得令人满意的结果。在Transformer的帮助下,将目标检测视为一个集合预测任务。TransUNet 就是一项类似工作,它将ViT用于医学图像分割。

一个输入的MRI扫描X\in R^{C×H×W×D},空间分辨率为H×W,深度为D(片数),C通道(模数)。维度为D(切片数量)和C通道(模式数量),首先利用3D CNN来生成捕捉空间和深度信息的紧凑特征图,然后利用Transformer编码器来模拟全局空间中的长距离全局空间中的依赖性。之后,反复叠加上采样和卷积层,逐渐产生一个高分辨率的分割结果。ViT将图像分割成固定大小(16×16)的斑块,然后将每个斑块重塑为一个标记,将序列长度减少到162。对于三维体积数据,按照ViT,直接的标记化是将数据分割成三维斑块。然而,这种简单的策略使得Transformer无法在空间和深度维度上对图像的局部环境信息进行建模,以进行体积分割。TransBTS 将3×3×3的卷积块(strided convolution,stride=2),将输入图像逐渐编码为低分辨率的图像。该论文提出新的分割框架,有效地将Transformer纳入三维CNN,用于MRI的多模态脑瘤分割。由此产生的架构,TransBTS,不仅继承了三维CNN在局部环境信息建模方面的优势,而且还利用Transformer学习全局语义关联。全局语义关联性。在两个数据集上的实验结果(BraTS 2019和2020)验证了TransBTS的有效性。

Transformer利用self-attention机制进行全局(长距离)信息建模,近年来在自然语言处理和二维图像分类领域取得了成功。然而,局部和全局特征对于密集预测任务至关重要,特别是对于三维医学图像分割。这篇文章首次利用三维CNN中的Transformer进行MRI脑肿瘤分割,提出了一种基于编码-解码结构的TransBTS网络。为了获取局部的三维上下文信息,编码器首先利用三维CNN提取三维空间特征图。同时,对特征映射进行了细致的改造,将标记输入到Transformer中进行全局特征建模。解码器利用Transformer嵌入的特征,进行渐进式上采样来预测详细的分割图。 

3.INS-Conv: Incremental Sparse Convolution for Online 3D Segmentation

论文地址:论文地址

代码:论文代码

总结:

先处理得到体素化的点云,然后将其作为输入,并在体素网格上进行 3D 卷积运算。以往的工作中采用的是密集的 3D 卷积,该类方法面临的一个重要问题是,对高维数据进行处理要消耗极高的计算成本,而且有时甚至无法对大规模的体素网格进行处理。为解决该问题,研究人员提出的稀疏卷积网络方法,利用 3D 点云的固有稀疏性来提取 3D 特征的骨干,有效突破了之前的限制,而且分割精度也进一步提高。之后,将 2D 和 3D 网络联合训练方法的提出使得性能进一步提升。

INS-Conv 方法中也提取了离线 3D 分割的经验,采用了类似于聚类的方法,使用稀疏卷积网络对提取的每点的特征进行聚类,并添加了一个阶段来将对多个帧的预测进行融合。

思路/原理:

INS-Conv,一个增量稀疏卷积网络,它可以实现在线准确的三维语义和实例分割。 在三维重建的同时生成语义和实例标签,这对交互式AR/VR和机器人应用很有价值。机器人技术应用的价值。

该网络模型能够实现在线准确的3D语义和实例分割。

4.Self-Supervised Pre-Training of Swin Transformers for 3D Medical Image Analysis

论文地址:论文地址

论文代码: 论文代码

数据集:BTCV (CT) MSD(MRI/CT)

总结:该论文提出:

(1)一个新的基于三维 Transformer 的模型,Swin UNEt TRansformers(Swin UNETR),带有一个用于自监督的预训练的分层编码器。

(2)用于学习人体解剖学基本模式的定制代理任务。

思路/原理:


直接利用3D补丁,并通过不同分辨率的跳过连接与基于CNN的解码器相连。

5.UTNet: A Hybrid Transformer Architecture for Medical Image Segmentation

论文地址:论文地址

论文代码:论文代码

数据集:Multi-Centre, Multi-Vendor & Multi-Disease Cardiac Image Segmentation Challenge

在语义分割上,FCN 这类卷积的编码器-解码器架构衍生出的模型在过去几年取得了实质性进展,但这类模型存在两个局限。第一,卷积仅能从邻域像素收集信息,缺乏提取明确全局依赖性特征的能力;第二,卷积核的大小和形状往往是固定的,因此它们不能灵活适应输入的图像或其他内容。相反,Transformer architecture 由于自注意力机制具有捕获全局依赖特征的能力,且允许网络根据输入内容动态收集相关特征。

Transformer 架构的训练需要的更大的开销,因为自注意力机制(self-attention)在序列长度方面具有的时间和空间复杂度。基于此,标准的 self-attention 大多数以 patch-wise 方式应用到模型中,比如使用 16 × 16 这种小扁平图像块作为输入序列,或者在来自 CNN 主干的特征图之上对图像进行编码,这些特征图一般是下采样后的低分辨率图像。这里问题就出来了,对于医学图像分割任务目标位置敏感的特殊性,一些欠分割或者过分割的区域都在目标周围,往往需要高分辨率特征。此外,有些实验论证,在 ImageNet 上进行了预训练,Transformer 要比 ResNet 差,Transformer 真的能适应医学图像这种小数据集分割任务吗?

为了解决上面的问题,文章中提出的 U-Net 混合 Transformer 网络:UTNet,它整合了卷积和自注意力策略用于医学图像分割任务。应用卷积层来提取局部强度特征,以避免对 Transformer 进行大规模的预训练,同时使用自注意力来捕获全局特征。为了提高分割质量,还提出了一种 efficient self-attention,在时间和空间上将整体复杂度从 O(n^2)显着降低到接近 O(n)。此外,在 self-attention 模块中使用相对位置编码来学习医学图像中的内容-位置关系。

Transformer 建立在多头自注意机制 (MHSA) 模块上,MHSA 是由多个 Self-Attention 组成的。下图是 Self-Attention 的结构,在计算的时候需要用到矩阵 Q(查询),K(键值),V(值)。在实际中,Self-Attention 接收的是输入(单词的表示向量 x 组成的矩阵 X) 或者上一个 Encoder block 的输出。而 Q,K,V 是通过 Self-Attention 的输入进行线性变换得到的。

得到矩阵 Q, K, V 之后就可以计算出 Self-Attention 的输出了,计算的公式如下。其中 d 是 Q,K 矩阵的列数(向量维度),公式中计算矩阵 Q 和 K 每一行向量的内积,为了防止内积过大,因此除以 d 的平方根。将 Q, K, V 展平并转置为大小为 n × d 的序列,其中 n = HW。P ∈ Rn×n 被命名为上下文聚合矩阵,用作权重以收集上下文信息。

Attention (Q,K,V)=softmax(\frac{QK^T }{\sqrt{d} } )V                        5-1

通过这种方式,self-attention 本质上具有全局感受野,擅长捕捉全局依赖。 此外,上下文聚合矩阵可以适应输入内容,以实现更好的特征聚合。需要关注的是,n×d 矩阵的点乘会导致 O(n2d) 复杂度。通常,当特征图的分辨率很大时,n 远大于 d,因此序列长度 n 在自注意力计算中占主导地位,这使得高分辨率特征图中应用自注意力是不可行的,例如对于 16 × 16 特征图,n = 256,对于 128 × 128 特征图,n = 16384。这一点在本篇笔记的概述中提到过。

主要思想很简单,是将 K 和 V 矩阵做了一个 Low-dimension Embedding 达到减小计算量的目的,对应的上下文聚合矩阵 P 的 size 也会被修改。 通过这样做,可以把复杂度降低到 O(nkd)。相当于,这里我们可以做任意下采样操作,例如平均/最大池化或带步长卷积操作。 比如,使用 1×1 卷积,然后使用双线性插值对特征图进行下采样,缩小后的 size 是可以推断的。

Transformer 的相对位置编码大概作用是让像素间保持空间位置关系(从ViT的实验看,去掉 position embedding 后,性能会下降3个点以上),对于图像就是保持二维信息,它对于图像任务来讲很重要。像目前的相对位置编码设计,都算是将位置编码整合到了 Attention 的定义中去了,没有显式地使用绝对位置编码。读者们应该可以发现 2.2 的 MHSA 图里,在 softmax 之前的 pair-wise attention logit 计算中使用了像素 i 和 j 的位置编码,具体的计算如下

l_{i,j} =\frac{q_{i}^T }{\sqrt{d} } (k_{j}+r_{j_{x}-i_{x} }^W+ r_{j_{y}-i_{y} }^H  )

相应的,self-attention 的计算公式又需要做修正了,和之前的区别就是相对宽度和高度是在 low-dimensional projection (低维投影)之后计算的。对 5-1的高效 self-attention 修正后的计算方式如下。

Attention (Q,K,V)=softmax(\frac{QK^T+S_{rel}^H+S_{rel}^W   }{\sqrt{d} } )V

如何把 Transformer 的 encoder 和 decoder 合理加入到主干 U-Net 中

如图所示 UTNet 结构图,整体上还是保持 U 型。(b) 是一个经典的残差块,传统的 U-Net 改进方法也是这么做的,这样也可以提高分割任务的准确率,避免网络深度带来的梯度爆炸和梯度消失等问题。 (c) 是一个标准的 Transformer Decoder 设计。可以发现,遵循了 U-Net 的标准设计,但将每个构建块的最后一个卷积(最高的除外)替换为 2.2 的 Transformer 模块。此外,低三层的跨层连接也被替换为了 Transformer Decoder


这种混合架构可以利用卷积图像的归纳偏差来避免大规模预训练,以及 Transformer 捕获全局特征关系的能力。由于错误分割的区域通常位于感兴趣区域的边界,高分辨率的上下文信息可以在分割中发挥至关重要的作用。因此,重点放在了自我注意模块上,这使得有效处理大尺寸特征图成为可能。没有将自注意力模块简单地集成到来自 CNN 主干的特征图之上,而是将 Transformer 模块应用于编码器和解码器的每个级别,以从多个尺度收集长期依赖关系。请注意,没有在原始分辨率上应用 Transformer,因为在网络的非常浅层中添加 Transformer 模块对实验没有帮助,但会引入额外的计算。一个可能的原因是网络的浅层更多地关注详细的纹理,其中收集全局上下文特征效果肯定不理想。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,835评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,598评论 1 295
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,569评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,159评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,533评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,710评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,923评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,674评论 0 203
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,421评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,622评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,115评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,428评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,114评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,097评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,875评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,753评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,649评论 2 271

推荐阅读更多精彩内容