Rethinking ReLU to Train Better CNNs

深度学习

创建时间:2015-02-01 23:59

阅读:

随着深度卷积神经网络（DCNN）的飞速发展，许多作品致力于设计更好的网络体系结构（即AlexNet，VGG，Inception，ResNet和DenseNet等）。尽管如此，所有这些网络都具有相同的特性：每个卷积层后面都有一个激活层，其中最常用的是整流线性单元（ReLU）。在这项工作中，我们认为具有1：1卷积和ReLU比率的配对模块不是最佳选择，因为它可能导致较差的泛化能力。因此，我们尝试研究更合适的卷积和ReLU比率，以探索更好的网络体系结构。具体而言，受Leaky ReLU的启发，我们专注于采用N：M的比例模块（N>M）卷积和ReLU比来设计更好的网络。从集成学习的角度来看，泄漏ReLU可以看作是具有不同卷积和ReLU比率的网络的集成。我们发现，通过对简单的Leaky ReLU模型进行分析，具有N：M（N>M）卷积和ReLU比率的比例模块可以帮助网络获得更好的性能。通过使用具有N：M（N>M）卷积和ReLU比率的比例模块，由于N：M（N>M）比例模块可以更有效地利用信息，因此许多流行的网络可以在模型中形成更丰富的表示。此外，我们将此模块应用于各种DCNN模型中，以探讨N：M（N>M）卷积和ReLU比例确实更有效。从我们的实验结果中，我们可以发现，这种简单而有效的方法在使用各种网络体系结构的不同基准中可以获得更好的性能，并且实验结果证明了比例模块的优越性。此外，据我们所知，这是首次在DCNN模型中引入比例模块。我们认为我们提出的方法可以帮助许多研究人员设计更好的网络架构。

在这项工作中，我们认为具有1：1卷积和ReLU比率的常规配对模块不是设计网络体系结构的最佳选择。从集成学习的角度来看，图3（a）所示的Leaky ReLU模型可以看作是具有不同卷积和ReLU比率的网络的集成。通过一个简单的比较实验，我们发现N：M（N>M）卷积和ReLU比率可以帮助网络获得更好的性能。此外，我们进行了不同的实验以探索更合适的比例模块。从我们的实验结果中，我们发现比例模块的大部分可以丰富网络的表达能力，因为它可以利用线性信息。尽管非线性保留了网络的深度属性，但是对于学习更好的数据分布，仍然不能忽略线性信息。实验结果表明，这种简单的设计具有比相应基准更高的性能。据我们所知，这是第一次在DCNN模型中引入比例模块。我们认为简单的方法可以帮助许多研究人员设计更好的网络架构。另外，为了以后的工作，我们将利用强化学习来自适应地组装Conv和ReLU。

请多多指教。