Deeplab
DeepLab 是结合了深度卷积神经网络 (DCNNs) 和概率图模型 (DenseCRFs)。的方法。在实验中发现DCNNs做语义分割时精准度不够的问题,根本原因是DCNNs的高级特征的平移不变性(即高层次特征映射)。 DeepLab 解决这一问题的方法是通过将DCNNs层的响应和完全连接的条件随机场(CRF)结合。同时模型创新性的将hole(即空洞卷积)算法应用到DCNNs模型上,在现代GPU上运行速度达到了 8FPS。
DeepLabv2 可以看成是 DeepLabv1 的强化版,在空洞卷积和全连接的 CRF 使用上与 DeepLabv1类似。
DeepLabv1 & DeepLabv2 使用 DCNN 做密集的分类任务,产生的预测图有目标大概的位置,但比较粗糙使用条件随机场(CRF)细化分割结果
DeepLabv3的创新点一是改进了ASPP模块;二是参考了图森组的Understanding Convolution for Semantic Segmentation 中 HDC 的思想。其实就是对应纵横两种结构。backbone还是resnet 101 。DeepLabv3进一步探讨空洞卷积,这是一个在语义分割任务中:可以调整滤波器视野、控制卷积神经网络计算的特征响应分辨率的强大工具。为了解决多尺度下的目标分割问题,我们设计了空洞卷积级联或不同采样率空洞卷积并行架构。此外,我们强调了ASPP(Atrous Spatial Pyramid Pooling)模块,该模块可以在获取多个尺度上卷积特征,进一步提升性能。同时,我们分享了实施细节和训练方法,此次提出的DeepLabv3相比先前的版本有显著的效果提升,在PASCAL VOC 2012上获得了先进的性能。
v3+的创新点一是设计基于 v3 的decode module,二是用 modify xception 作为 backbone 。
Deeplab 的主要贡献是什么?引入了什么技术?
DeepLab 创造性的结合了 DCNN 和 CRF 产生一种新的语义分割模型,模型有准确的预测结果同时计算效率高。在 PASCAL VOC 2012上展现了先进的水平。DeepLab 是卷积神经网络和概率图模型的交集,后续可考虑将 CNN 和 CRF 结合到一起做 end-to-end 训练。
v1三个主要贡献:
(1)速度:借用空洞算法,可以使 DCNN 保持 8FPS 的速度。
(2)准确率:在 PASCAL 语义分割上的挑战获得最好成绩,并超第二 7.2%
(3)简单性:DCNN 只由 DCNNs 与 CRFs 两部分组成。
v2三个主要贡献:
首先,强调使用空洞卷积,作为密集预测任务的强大工具。空洞卷积能够明确地控制DCNN内计算特征响应的分辨率。它还允许我们有效地扩大滤波器的视野以并入较大的上下文,而不增加参数的数量或计算量。
其次,提出了空洞空间卷积池化金字塔 (atrous spatial pyramid pooling (ASPP)),以多尺度的信息得到更强健的分割结果。 ASPP 并行的采用多个采样率的空洞卷积层来探测,以多个比例捕捉对象以及图像上下文。
最后,通过组合 DCNN 和概率图模型,改进分割边界结果。在 DCNN 中最大池化和下采样组合实现可平移不变性,但这对精度是有影响的。通过将最终的 DCNN 层响应与全连接的 CRF 结合来克服这个问题。
v3主要贡献:
提出了更通用的框架,适用于任何网络
改进了ASPP:由不同采样率的空洞卷积和BN层组成,我们尝试以级联或并行的方式布局模块。
讨论了一个重要问题:使用大采样率的3×3 的空洞卷积,因为图像边界响应无法捕捉远距离信息,会退化为1×1的卷积, 我们建议将图像级特征融合到ASPP模块中。
阐述了训练细节并分享了训练经验
DeepLab v3+ 的主要贡献:
encoder-decoder
设计基于v3的 decode module
把中间一层的特征图用于输出图放大
为了融合多尺度信息,引入语义分割常用的 encoder-decoder
Xception为什么要提出 ASPP?
在给定的特征层上使用不同采样率的卷积有效的重采样, 使用不同采样率的空洞卷积并行采样
参考链接:
语义分割模型之 DeepLabv3+
DeepLab-v3+
读 Xception 和 DeepLab V3+
请多多指教。
文章标题:Deeplab
本文作者:顺强
发布时间:2019-12-23, 23:59:00
原始链接:http://shunqiang.ml/paper-deeplab/版权声明: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。