深度学习之二：CNN推导

u010223750

浏览: 120546 次
性别:
来自: 北京

最近访客更多访客>>

u012363178

Java技术干货

马桶拔子

15640823316

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

深度学习

深度学习 CNN

前面看过了CNN的基本结构，经典的模式如下图：

上图经典的CNN模型主要可以概括为三个部分：

convolution层：convolution是将原来的输入向量映射成多个feature map，每个feature map的权重和偏移量都是一样的

sub-sampling层：sub-sampling 层将feature map进一步缩小，可以选择down-sampling的方法有很多，如max-pooling是选取所选区域的最大值，也有是选取所选区域的每个像素的输出值的平均值，当然也有是将所选区域的每个像素的输出值进行求和，但是目的只有一个，那就是进一步将feature map压缩

全连接层：CNN中卷积层和sub-sampling层可以多个组合使用，在最后面的sub-sampling层后面加入几个全连接层，最后连接到输出层中去

了解完这一点后，根据一般的神经网络BP算法，我们构造完损失函数L，然后在训练过程中就使用BP算法进行梯度下降求导了，本文就是介绍关于CNN求导过程。

整篇文章参考的论文为【1】Notes on Convolutional Neural Networks ，作者Jake Bourvie比较详细的介绍了CNN 的求导方法。

文章假设已经掌握了经典的BP算法，同时对于损失函数也有一定的了解，常用的平方损失函数或者cross-entropy函数等，所以下文不会给出从头到尾的推导公式，只是着重介绍在卷积层和sub-sampling层的求导过程。

一，首先来看卷积层的求导（求误差敏感项以及权重和偏置值）：

从输入层到卷积层的feature map，我们使用的是如下计算公式：

其中Mj表示的是输入层的选中区域，而Kij核函数表示的是权重参数，也就是w参数，f(.)表示的是激励函数，一般使用sigmoid，也有资料【2】表示使用ReLU函数能够更好的训练深度神经网络，总之这个式子表示的是从上一输入层到卷积层的计算过程，feature map共享相同的Kernel和biase也就是w和b参数，不同的feature map 的w和b参数不一样

现在来计算一下卷积层的梯度下降公式：

目的：计算卷积层的各个参数的梯度，也就是计算上面式子的Kij和b的导数值

假设每个卷积层后面都跟着sub-sampling层，BP算法告诉我们，要想求得本层的参数，那么就需要求出损失函数对本层输出结果的导数，这里就出现了一个问题，卷积层的大小和sub-sampling层的大小不一样，这就对求导产生的难度。

为了求导，我们可以将sub-sampling层按照之前的卷积层到sub-sampling层的映射规则，将sub-sampling层展开成和卷积层一样的大小，我们看一下是如歌展开的：

假设卷积层为4*4大小，然后sub-sampling层为2*2大小，我们假设现在使用BP算法求得的sub-sampling敏感项大小是：

假设在从卷积层到sub-sample层是使用均值的方法，那么可以将sub-sampling 的敏感项"up-sampling"到如下图：

如假设使用的是max-pooling方法，那么可以选择其他区域为0，其up-sampling的结果可能是下图：

之所以是使用“可能”两个字，是因为0的位置需要根据卷积层到sub-sampling层的最大值在卷积层的位置决定,因此还需要记住从convolution层到sub-sampling层的映射位置。

在得到卷积层output敏感项之后，就可以进行对卷积层的参数进行求导了：

(1)

(2)

(3)

其中（1）式中的up(.)指的就是讲suB-sampling层按照之前说的规则“展开”，βl+1 表示的是sub-sampling“展开后”卷积层的output敏感项，f0(u` j)则是对卷积层的激励函数求导，这和BP算法是一致的

（2）式表示对卷积层参数b的求导，（3）式表示的是对卷积层参数Kij的求导，其实也就是对权重w进行求导，Pi表示的是卷积层上一层输入值块，也就是卷积区域的输入值矩阵，和BP算法保持一致。

在【1】这篇文章中，有一种新的方法计算这部分求导，其实是为了方便MATLAB编程，我们以求 L-1层的敏感项（δl-1）举例说明：

假设卷积层前面是一个3*3大小的通道，卷积核大小为2*2,那么在卷积层应该有2*2大小，我们假设现在已经求出的卷积层的敏感项为：

卷积核为：

我们先将卷积层L的敏感项“FULL”化：(稍后解释为什么)

那么对卷积层的Xij（也就是前一层的敏感项）求导的结果就是

* =

注意这里*表示的离散卷积，也就是先要将卷积核旋转180度然后进行卷积相乘。其实这里也是根据BP算法进行推导的，比如最中间的2.3是由矩阵[1,1,2,3]的 1的右下角，1的左下角，2的右上角，3的左上角的四个因子相乘所得，所以2.3=1*0.6+1*0.5+2*0.3+3*0.2得来

当然如果有多个feature map，只需要将所得到的3维矩阵相加即可

二，前面部分从convolution层到sub-sampling层没有考虑使用线性变换，也就是说可能从卷积层到sample层还可能有参数Biase和w参数，下面就这一点做个说明

计算公式：

其中down表示的是从卷积层到sub-sampling层使用的函数，例如max-pooling使用的是最大值，在论文【1】里面，作者使用的求和，也就是将卷基层的输出直接相加得到dowm(.)注意到这里使用的 βj `和（1）式中使用的是一样的参数，之所以是这样，是因为如果从卷积层到sub-sampling层使用的是求和的话，那么卷积层的敏感项“展开项”都是一样的 βj ` ，所以（1）式中的 βj ` 就是这么来的