文章学习23“Structure-sensitive Multi-scale Deep Neural Network for Low-Dose CT Denoising”

本文是之前用WGAN做LDCT去噪的作者5月发表在arxiv上的新作,总得来说就是在之前的WGAN作品上把生成器部分从2D转化为3D,然后loss上又增加了很多可能,比如L1、L2、MS-SSIM和混合loss形式。当然效果是要比之前的要好,具体会在下文详述。

Introduction和related work没有太多新意,和之前的文章内容一致,都是介绍下目前已有的为数不多的几篇用深度学习去噪的paper,然后介绍自己的创新点,有三:第一就是3DCNN,生成器部分的,好处就是“ can integrate spatial information to enhance the image quality and yield 3D volumetric results for better diagnosis.”;第二个创新点是loss,作者采用了L1损失和结构敏感性损失相结合的loss形式,to capture local anatomical structures while reducing background noise.;第三个创新点就是实验部分对收敛速度和去噪结果进行对比。下图是网络结构,没有太多新意,就是一些内部的调整。

网络由三部分组成,part1生成器由8个3D卷积组成,奇数层卷积核是3*3*1,偶数层是3*3*3,切割成80*80*11的patch,每个卷积层之后加relu激活、part2结构敏感性损失网络也是3d、part3判别器,判别器部分使用的是2D卷积,filter依次是64、64、128、128、256、256的6个卷积层,卷积核是3*3。

作者讨论了使用3d信息的原因。在实际应用上,我们得到的CT本就是三维图像,医生观诊所用也是三维图像,3D CT图像的相邻横截面切片表现出强烈的空间相关性,其可以保存比基于2D的模型更多的矢状和冠状方向的信息。

说完第一个创新点3D之后就是第二个创新,loss的选取。作者在文中对比了几种不同的loss,比如L2loss,它可以有效的抑制背景噪声,但是去噪结果不自然而且会模糊化,L1可以很有效的抑制掉高斯白噪声,但LDCT里不止是高斯噪声,所以针对LDCT效果不好;

第三个loss是之前那篇WGAN里提出的对抗损失,前两项是根据Wasserstein 距离所得的,第三项是梯度惩罚项

下一个loss是结构损失,目的是让生成器产生和HDCT更加相似的图像,所以这里用的是SSIM,这里的损失就是第三项,分析下,SSIM是一个[0,1]的数值,越大表示去噪效果越好,MS_SSIM是SSIM的乘积范围也被限制在[0,1],切SSIM越大,该值也会越大,LSL是1减掉MS_SSIM,那么就会随着MS的增大而减小,但会一直控制在[0,1],就可以像训练其他loss一样来训练。但是,如果只要有一个SSIM为0(当然对于去噪这个可能性很低),这个损失就没有意义了(维持1),这应该是一个bug,可能这个loss在这里适用,但泛化性就会很低。

Part2里的结构敏感性损失采用了多loss的形式,结合L1和LSL,如下式:

但仅用上式会失去一些重要的诊断特征,所以引入了对抗损失:

其中β是可以通过网络学习的参数。

实验时数据集就是AAPM数据集,作者把这个数据集分成了10份,做了一个10倍交叉验证,就是依次拿10份作为验证集其余的9份作为训练集(数据集很大,作者应该没有用完全部的数据集)

针对收敛速度的对比(创新点3),结果如下图,

分别是针对不同的loss得到的结果,每一条曲线对应着不同的网络结构,结果显示本文所提出的SMGAN收敛速度比较快。

整个去噪只是在abdomen窗下完成的,HU值是[-160,240],去噪的结果图如下:

单幅图像上三个指标的定量测量结果如下,PSNR、SSIM、RMSE都有提升,但是效果最后的并不是GAN的,这也是这几个指标一直存在的弊端,所以作者后面采用了3位放射学家以人类的视角来对去噪的效果打分1-5分,越高效果越好。

以人类视角来看,还是SMGAN表现最好,这也符合之前的认知。主要内容差不多就这些,创新点就是一开始说的那三个,另外就是采用了放射科医生来评判去噪效果。但是他定量测量的都是只拿单幅图像,并没有求个平均值什么的,另外就是所提出的损失函数的泛华性,不过MS_SSIM损失函数可以尝试。

推荐阅读更多精彩内容