图像分割技巧总结

深度学习

创建时间:2020-03-18 23:59

阅读:

CNN 使用
RNN 使用
预处理
数据增强
建模
训练技巧
评估和交叉验证
集成方法
后处理

从拿到一个问题决定用神经网络说起。一般而言，
首先选定你要采用的结构，如一对一，固定窗口，数据维度粒度，MLP，RNN 或者 CNN 等。
非线性选择，sigmoid，tanh，ReLU，或者一些变体，一般tanh比sigmoid效果好一点(简单说明下，两者很类似，tanh是rescaled的sigmoid，sigmoid输出都为正数，根据BP规则，某层的神经元的权重的梯度的符号和后层误差的一样，也就是说，如果后一层的误差为正，则这一层的权重全部都要降低，如果为负，则这一层梯度全部为负，权重全部增加，权重要么都增加，要么都减少，这明显是有问题的；tanh是以0为对称中心的，这会消除在权重更新时的系统偏差导致的偏向性。当然这是启发式的，并不是说tanh一定比sigmoid的好)，ReLU也是很好的选择，最大的好处是，当tanh和sigmoid饱和时都会有梯度消失的问题，ReLU就不会有这个问题，而且计算简单，当然它会产生dead neurons，下面会具体说。
Gradient Check，如果你觉得网络feedforward没什么问题，那么GC可以保证BP的过程没什么bug。值得提的是，如果feedforward有问题，但是得到的误差是差不多的，GC也会感觉是对的。大多情况GC可帮你找到很多问题！

那如果GC失败，可能网络某些部分有问题，也有可能整个网络都有问题了！你也不知道哪出错了，那怎么办呢？构建一个可视化过程监控每一个环节，这可以让你清楚知道你的网络的每一地方是否有问题！！这里还有一个trick，先构建一个简单的任务(比如你做MNIST数字识别，你可以先识别0和1，如果成功可以再加入更多识别数字)；然后从简单到复杂逐步来检测你的model，看哪里有问题。举个例子吧，先用固定的data通过单层softmax看feedforward效果，然后BP效果，然后增加单层单个neuron unit看效果；增加一层多个；增加bias。。。。。直到构建出最终的样子，系统化的检测每一步！

参数初始化也是重要滴！其主要考虑点在于你的激活函数的取值范围和梯度较大的范围！
隐层的bias一般初始化为0就可以；输出层的bias可以考虑用reverse activation of mean targets或者mean targets(很直观对不对) weights初始化一般较小的随机数，比如Uniform，Gaussion

更放心一点，可视化每一层feedforward输出的取值范围，梯度范围，通过修改使其落入激活函数的中间区域范围（梯度类似线性）；如果是ReLU则保证不要输出大多为负数就好，可以给bias一点正直的噪声等。当然还有一点就是不能让神经元输出一样，原因很简单

优化算法，一般用mini-batch SGD，绝对不要用full batch gradient(慢)。一般情况下，大数据集用2nd order batch method比如L-BFGS较好，但是会有大量额外计算2nd过程；小数据集，L-BFGS或共轭梯度较好。(Large-batch L-BFGS extends the reach of L-BFGSLe et al. ICML 2001)

mini-batch好处主要有：可以用矩阵计算加速并行；引入的随机性可以避免困在局部最优值；并行化计算多个梯度等。在此基础上一些改进也是很有效的(因为SGD真的敏感)，比如Momentum，他的意图就是在原先的跟新基础上增加一点摩擦力，有点向加速度对速度的作用，如果多次更新梯度都往一个方向，说明这个方向是对的，这时候增加跟新的步长，突然有一个方向，只会较少影响原来的方向，因为可以较少的数据带来的误差。当你使用momentum时可以适当减小global learning rate

学习率，跑过神经网络的都知道这个影响还蛮大。一般就是要么选用固定的lr，要么随着训练让lr逐步变小
方案一：当验证误差不再下降时，lr减小为原来的0.5
方案二：采用理论上可以保证收敛的减小比例，O(1/t)，t是迭代次数
方案三：最好用自适应的学习率，比如Adagrad(Duchi et al. 2010)等
简要说明一下，Adagrad非常适合数据出现频度不一样的模型，比如word2vec，你肯定希望出现非常少的词语权重更新非常大，让它们远离常规词，学习到向量空间中距离度量的意义，出现非常多的词(the，very，often)每次更新比较小。
去掉gradient clipping（一般默认有），训练过程中，找到最大的，使模型error不会爆掉的lr，然后用稍微小一点的lr训练
一般数据中的outliers会产生大的error，进而大的gradient，得到大的weight update，会使最优的lr比较难找
预处理好数据(去除outliers)，lr设定好一般无需clipping
如果error explode,那么加gradient clipping只是暂时缓解，原因还是数据有问题

标准化(Normalization)
很多machine learning模型都需要，在此不多论述，神经网络假设inputs/outputs服从近似均值为0方差为1分布。主要为了公平对待每个特征；使优化过程变得平稳；消除量纲影响等
z-score; min-max; decimal scaling等
scale控制特征的重要性：大scale的output特征产生更大的error；大的scale的input的特征可以主导网络对此特征更敏感，产生大的update
一些特征本来取值范围很小需要格外注意，避免产生NaNs
就算没有标准化你的网络可以训练的话，那可能前几层也是做类似的事情，无形增加了网络的复杂程度
通常都是把所有inputs的特征独立地按同样的规则标准化，如果对任务有特殊需求，某些特征可以特别对待

检查结果(Results Check)
有点类似于在模型中按一个监控系统（预处理，训练，预测过程中都要），这个步骤可以帮助你发现你的模型在哪里出了问题，最好可以找到可视化的方法，一目了然，比如图像方面就很直观了。
需要注意的是，你需要理解你设定的error的意义，就算训练过程error在不断减少，也需要来和真实的error比较，虽然training error减少了，但是可能还不够，真实世界中需要更小的error，说明模型学习的还不够
当在training过程中work后，再去看在validation集上的效果
再更新网络结构前，最好确保每一个环节都有“监控”，不要盲目做无用功

预处理(Pre-Processing Data)
现实中同样的数据可以有不同的表达方式，比如移动的汽车，你从不同角度位置去观察，它做的都是同样的事情。你应该确保从南面观察和从西面观察的同样的数据，应该是相似的！
神经网络假设数据的分布空间是连续的
减少数据表示多样性带来的误差；间接减少了网络前几层做没必要的“等同”映射带来的复杂度

正则化(Regularization)
增加Dropout，随机过程，噪声，data augumentation等。就算数据足够多，你认为不可能over-fitting，那么最好还是有正则，如dropout(0.99)
一方面缓解过拟合，另一方面引入的随机性，可以平缓训练过程，加速训练过程，处理outliers
Dropout可以看做ensemble，特征采样，相当于bagging很多子网络；训练过程中动态扩展拥有类似variation的输入数据集。（在单层网络中，类似折中Naiive bayes(所有特征权重独立)和logistic regression(所有特征之间有关系)；
一般对于越复杂的大规模网络，Dropout效果越好，是一个强regularizer！
最好的防止over-fitting就是有大量不重复数据

Batch Size太大
太大的batch size会减gradient descend的随机性，对模型的精度产生负面影响。
如果可以容忍训练时间过长，最好开始使用尽量小的batch size(16,8,1)
大的batch size需要更多的epoch来达到较好的水平
原因1：帮助训练过程中跳出local minima
原因2：使训练进入较为平缓的local minima，提高泛化性

最后一层的激活函数
限制输出的范围，一般不用任何激活
需要仔细考虑输入是什么，标准化之后的输出的取值范围，如果输出有正有负，你用ReLU，sigmoid明显不行；多分类任务一般用softmax(相当于对输出归一化为概率分布)
激活只是一个映射，理论上都可以
如果输出没有error明显也不行，那就没有gradient，模型也学不到什么
一般用tanh，产生一个问题就是梯度在-1或1附近非常小，神经元饱和学习很慢，容易产生梯度消息，模型产生更多接近-1或1的值

Bad Gradient(Dead Neurons)
使用ReLU激活函数，由于其在小于零范围梯度为0，可能会影响模型性能，甚至模型不会在更新
当发现模型随着epoch进行，训练error不变化，可能所以神经元都“死”了。这时尝试更换激活函数如leaky ReLU，ELU，再看训练error变化
使用ReLU时需要给参数加一点噪声，打破完全对称避免0梯度，甚至给biases加噪声
相对而言对于sigmoid，因为其在0值附近最敏感，梯度最大，初始化全为0就可以啦
任何关于梯度的操作，比如clipping, rounding, max/min都可能产生类似的问题
ReLU相对Sigmoid优点：单侧抑制；宽阔的兴奋边界；稀疏激活性；解决梯度消失

CNN 使用

神经网络是特征学习方法，其能力取决隐层，更多的连接意味着参数爆炸的增长，模型复杂直接导致很多问题。比如严重过拟合，过高的计算复杂度。
CNN其优越的性能十分值得使用，参数数量只和卷积核大小，数量有关，保证隐含节点数量（与卷积步长相关）的同时，大量降低了参数的数量！当然CNN更多用于图像，其他任务靠你自己抽象啦，多多尝试！
这里简单介绍一些CNN的trick
pooling或卷积尺寸和步长不一样，增加数据多样性
data augumentation，避免过拟合，提高泛化，加噪声扰动
weight regularization
SGD使用decay的训练方法
最后使用pooling（avgpooling）代替全连接，减少参数量
maxpooling代替avgpooling，避免avgpooling带来的模糊化效果
2个3x3代替一个5x5等，减少参数，增加非线性映射，使CNN对特征学习能力强
3x3,2x2窗口
预训练方法等
数据预处理后(PCA,ZCA)喂给模型
输出结果窗口ensemble
中间节点作为辅助输出节点，相当于模型融合，同时增加反向传播的梯度信号，提供了额外的正则化
1x1卷积，夸通道组织信息，提高网络表达，可对输出降维，低成本，性价比高，增加非线性映射，符合Hebbian原理
NIN增加网络对不同尺度的适应性，类似Multi-Scale思想
Factorization into small convolution，7x7用1x7和7x1代替，节约参数，增加非线性映射
BN减少Internal Covariance Shift问题，提高学习速度，减少过拟合，可以取消dropout，增大学习率，减轻正则，减少光学畸变的数据增强
模型遇到退化问题考虑shortcut结构，增加深度
等等

RNN 使用

小的细节和其他很像，简单说两句个人感觉的其他方面吧，其实RNN也是shortcut结构
一般用LSTM结构防止BPTT的梯度消失，GRU拥有更少的参数，可以优先考虑
预处理细节，padding，序列长度设定，罕见词语处理等
一般语言模型的数据量一定要非常大
Gradient Clipping
Seq2Seq结构考虑attention，前提数据量大
序列模型考率性能优良的CNN+gate结构
一般生成模型可以参考GAN，VAE，产生随机变量
RL的框架结合
数据量少考虑简单的MLP
预测采用层级结构降低训练复杂度
设计采样方法，增加模型收敛速度
增加多级shortcut结构

预处理

这一部分包含众多常见的有效图像预处理方法，例如：
使用高斯差分方法进行斑点检测；
使用基于图像块的输入进行训练，以减少训练时间；
加载数据时，用 cudf 替换 Pandas；
确保所有图像保持相同的方向；
使用 OpenCV 对所有常规图像进行预处理；
采用自主学习并手动添加注释；
将所有图像调整成相同的分辨率，以便将相同的模型用于不同厚度的扫描等。

数据增强

数据增强能够使网络具有更复杂的表征能力，从而减小网络性能在验证集和训练集以及最终测试集上的差距，让网络更好地学习迁移数据集上的数据分布。这部分介绍了一些常用的数据增强方法：
用 albumentations 包进行数据增强；
使用 90 度随机旋转；
使用水平、垂直翻转或这两个方向都做翻转；
尝试进行复杂的几何变换，包括弹性变换、透视变换、分段仿射变换、枕形失真；
应用随机 HSV；
使用损失较小的增强数据进行泛化，以防止有用图像信息丢失；
应用通道 shuffle；
根据类别频率进行数据扩充；
应用高斯噪声等。

建模

网络架构
这一部分介绍了一些可用在图像分割上的常用网络框架，例如：
使用基于 U-net 的架构；
用 inception-ResNet v2 架构得到具备不同感受野的训练特征；
经过对抗训练的 Siamese 网络；
以密集（FC）层作为最后一层的 ResNet50、Xception、Inception ResNet v2 x 5；
使用全局最大池化层，无论输入尺寸如何，该层都将返回固定长度的输出；
使用堆叠的膨胀卷积；
VoxelNet；
用 concat 和 conv1x1 替换 LinkNet 跳跃连接中的加号；
广义平均池化；
用 3D 卷积网络在图像上滑动；
使用在 Imagenet 数据集上预训练的 ResNet152 作为特征提取器等。

损失函数
损失函数常用来估计模型预测结果与真值之间的差距。选择合适的损失函数，对模型效果很重要。
这部分介绍了一系列损失函数和使用场景，例如：
dice 系数：能够很好地处理不平衡数据；
加权边界损失：减少预测分割与真值之间的距离；
MultiLabelSoftMarginLoss：基于最大熵优化多标签一对多损失的标准；
具备 logit 损失的平衡交叉熵（Balanced cross entropy，BCE）：以特定系数权衡正例和负例；
……

训练技巧

这部分介绍了常用的模型训练技巧，如：
尝试不同的学习率；
尝试不同批大小；
使用带有动量项的 SDG，并且手动设置学习率衰减；
数据增强过多会降低准确率；
使用裁剪后的图像训练，并在完整的图像上做预测；
在学习速率调整上使用 Keras 中的 ReduceLROnPlateau() 方法；
冻结除了最后一层以外所有的网络层，并使用 Stage1 中的 1000 张图片进行模型微调；
开发一个能使标签更加均匀的采样器；
使用类别感知采样（class aware sampling）等。

评估和交叉验证

这部分介绍了 k 折交叉验证、对抗验证和权衡等方法，以及在调整模型最后一层时使用交叉验证方法以有效避免过拟合。

集成方法

许多机器学习竞赛（包括 Kaggle）中最优秀的解决方案所采用的集成方法都建立在一个这样的假设上：将多个模型组合在一起通常可以产生更强大的模型。
这部分介绍了多种集成方法，如多数投票法、XGBoost、LightGBM、CatBoost 等方法，以及集成 ResNet50、InceptionV3 和 InceptionResNetV2 的方法。

后处理

这部分介绍了多种后处理方法：
测试时增强（Test Time Augmentation，TTA）：向模型多次展示经过不同随机变换的图像，取预测平均值；
均衡使用测试预测概率，而不是仅使用预测类；
将几何平均数应用于预测；
在推理过程中将图块重叠，使每个边缘像素至少覆盖 3 次，因为 UNET 在边缘区域范围的预测往往较差；
非极大抑制和边界框收缩；
分水岭后处理：在实例分割问题中分离对象。
最后需要注意的是，这份列表给出的某些技巧可能有一定的适用范围，具体能不能用还要视数据而定。

请多多指教。