激活函数
1. 什么是激活函数
如下图,在神经元中,输入的 inputs 通过加权,求和后,还被作用了一个函数,这个函数就是激活函数 Activation Function。
2. 激活函数作用
如果不用激活函数,每一层输出都是上层输入的线性函数,无论神经网络有多少层,输出都是输入的线性组合。
如果使用的话,激活函数给神经元引入了非线性因素,使得神经网络可以任意逼近任何非线性函数,这样神经网络就可以应用到众多的非线性模型中。
激活函数的主要作用是提供网络的非线性建模能力。如果没有激活函数,那么该网络仅能够表达线性映射,此时即便有再多的隐藏层,其整个网络跟单层神经网络也是等价的。因此也可以认为,只有加入了激活函数之后,深度神经网络才具备了分层的非线性映射学习能力。
举例:
Output = w7(input1*w1 +input2*w2)+w8(input1*w3+input2*w4)+w9(input1*w5+input2*w6)
公式转换一下:
Output = input1(w1*w7+w3*w8+w9*w5)+input2*(w2*w7+w4*w8+w6*w9)
我们假设Output = 0
那么input1 = input2*( w2*w7+w4*w8+w6*w9)/(-w2*w7+w4*w8+w6*w9)
最后又回到了y= X*W的线性模式
也就是说,现在的神经网络学习能力非常有限
无法去解决非线性问题
叠加简单神经网络解决不了非线性分类问题
3.激活函数特性
可微性: 当优化方法是基于梯度的时候,这个性质是必须的。
单调性: 当激活函数是单调的时候,单层网络能够保证是凸函数。
输出值的范围: 当激活函数输出值是 有限 的时候,基于梯度的优化方法会更加 稳定,因为特征的表示受有限权值的影响更显著;当激活函数的输出是 无限 的时候,模型的训练会更加高效,不过在这种情况小,一般需要更小的learning rate
从目前来看,常见的激活函数多是分段线性和具有指数形状的非线性函数
4.常用激活函数
4.1 sigmoid
sigmoid 是使用范围最广的一类激活函数,具有指数函数形状,它在物理意义上最为接近生物神经元。此外,(0, 1) 的输出还可以被表示作概率,或用于输入的归一化,代表性的如Sigmoid交叉熵损失函数。
然而,sigmoid也有其自身的缺陷,最明显的就是饱和性。从上图可以看到,其两侧导数逐渐趋近于0
具有这种性质的称为软饱和激活函数。具体的,饱和又可分为左饱和与右饱和。与软饱和对应的是硬饱和, 即
f′(x)=0,当|x|>c,其中c为常数。
sigmoid 的软饱和性,使得深度神经网络在二三十年里一直难以有效的训练,是阻碍神经网络发展的重要原因。具体来说,由于在后向传递过程中,sigmoid向下传导的梯度包含了一个 f′(x)f′(x) 因子(sigmoid关于输入的导数),因此一旦输入落入饱和区,f′(x)f′(x) 就会变得接近于0,导致了向底层传递的梯度也变得非常小。此时,网络参数很难得到有效训练。这种现象被称为梯度消失。一般来说, sigmoid 网络在 5 层之内就会产生梯度消失现象
此外,sigmoid函数的输出均大于0,使得输出不是0均值,这称为偏移现象,这会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入。
sigmoid缺点:
(1)sigmod函数要进行指数运算,这个对于计算机来说是比较慢的
(2)当输入稍微远离了坐标原点,函数的梯度就变得很小了,几乎为零。反向传播时,很容易就会出现梯度消失的情况,从而无法完成深层网络的训练
(3)函数输出不是以0为中心的,这样会使权重更新效率降低。
4.2 tanh
tanh变形:
tanh也是一种非常常见的激活函数。
tanh优缺点:
优点:与sigmoid相比,它的输出均值是0,使得其收敛速度要比sigmoid快,减少迭代次数。缺点:tanh一样具有软饱和性,从而造成梯度消失,在两边一样有趋近于0的情况
4.3 ReLU,P-ReLU, Leaky-ReLU
ReLU的全称是Rectified Linear Units,是一种后来才出现的激活函数。 可以看到,当x<0时,ReLU硬饱和,而当x>0时,则不存在饱和问题。所以,ReLU 能够在x>0时保持梯度不衰减,从而缓解梯度消失问题。这让我们能够直接以监督的方式训练深度神经网络,而无需依赖无监督的逐层预训练。
然而,随着训练的推进,部分输入会落入硬饱和区,导致对应权重无法更新。这种现象被称为“神经元死亡”。与sigmoid类似,ReLU的输出均值也大于0,偏移现象和 神经元死亡会共同影响网络的收敛性。
针对在x<0的硬饱和问题,我们对ReLU做出相应的改进,使得
这就是Leaky-ReLU, 而P-ReLU认为,αα也可以作为一个参数来学习,原文献建议初始化a为0.25,不采用正则。
ReLU 的优点:
Krizhevsky et al. 发现使用 ReLU 得到的 SGD 的收敛速度会比 sigmoid/tanh 快很多
ReLU 的缺点:
训练的时候很”脆弱”,很容易就”die”了
例如,一个非常大的梯度流过一个 ReLU 神经元,更新过参数之后,这个神经元再也不会对任何数据有激活现象了,那么这个神经元的梯度就永远都会是 0.
如果 learning rate 很大,那么很有可能网络中的 40% 的神经元都”dead”了。
4.5 ELU
融合了sigmoid和ReLU,左侧具有软饱和性,右侧无饱和性。右侧线性部分使得ELU能够缓解梯度消失,而左侧软饱能够让ELU对输入变化或噪声更鲁棒。ELU的输出均值接近于零,所以收敛速度更快。在 ImageNet上,不加 Batch Normalization 30 层以上的 ReLU 网络会无法收敛,PReLU网络在MSRA的Fan-in (caffe )初始化下会发散,而 ELU 网络在Fan-in/Fan-out下都能收敛
4.6 Maxout
在我看来,这个激活函数有点大一统的感觉,因为maxout网络能够近似任意连续函数,且当w2,b2,…,wn,bn为0时,退化为ReLU。Maxout能够缓解梯度消失,同时又规避了ReLU神经元死亡的缺点,但增加了参数和计算量。
4.7.PReLU函数
PReLU也是针对ReLU的一个改进型,在负数区域内,PReLU有一个很小的斜率,这样也可以避免ReLU死掉的问题。相比于ELU,PReLU在负数区域内是线性运算,斜率虽然小,但是不会趋于0,这算是一定的优势吧。
我们看PReLU的公式,里面的参数α一般是取0~1之间的数,而且一般还是比较小的,如零点零几。当α=0.01时,我们叫PReLU为Leaky ReLU,算是PReLU的一种特殊情况吧。
4.8 softmax函数
Softmax - 用于多分类神经网络输出
参考文献:
https://zhuanlan.zhihu.com/p/32824193
https://blog.csdn.net/u014595019/article/details/52562159
https://blog.csdn.net/kangyi411/article/details/78969642
https://www.jianshu.com/p/22d9720dbf1a
https://blog.csdn.net/jningwei/article/details/79231645
- 大小: 33 KB
- 大小: 13.3 KB
- 大小: 2.4 KB
- 大小: 1.5 KB
- 大小: 2 KB
- 大小: 1.9 KB
- 大小: 3.3 KB
- 大小: 4.3 KB
- 大小: 1.9 KB
- 大小: 3.3 KB
- 大小: 2.5 KB
- 大小: 3.9 KB
- 大小: 2.7 KB
- 大小: 4.1 KB
- 大小: 1.4 KB
- 大小: 12 KB
- 大小: 1.5 KB
- 大小: 24.4 KB
- 大小: 1.4 KB
分享到:
相关推荐
本文将重点讨论三种常见的激活函数:sigmoid、tanh和ReLU,以及它们各自的优缺点和应用场景。 1. **sigmoid** 函数是一种S型曲线,其公式为`f(x) = 1 / (1 + e^(-x))`。它将实数值映射到(0,1)之间,常用于二分类...
PyTorch是目前深度学习领域非常流行的框架之一,它提供了一套完整的神经网络工具包,包括了丰富的激活函数。激活函数是神经网络中非线性变换的核心,它们能够帮助网络学习和模拟复杂的非线性关系,从而在分类、回归...
首先,本文探讨了激活函数在卷积神经网络中的作用,分析了传统激活函数的优缺点,并讨论了混合激活函数的优点。然后,本文选择了LeNet-5卷积神经网络作为基本结构,构建了一个使用Sinusoid-Sinusoid-Ramp (S-S-R)...
常见激活函数的图,用excel画的,有图有数据,高清缩放不变形,论文必备,包括Sigmoid、Tanh、ReLU、LeakyReLU
本文分析了两类激活函数的优缺点,并基于Softplus和LReLU函数提出了一种新的激活函数LReLU-Softplus,该函数兼具较强的稀疏能力与表达能力,且收敛能力强,识别率高。 LReLU-Softplus激活函数的公式如下所示: f(x...
Matlab 中插值函数汇总和使用说明 本文将对 Matlab 中的插值函数进行总结和使用说明,包括一维数据插值函数 interp1 和二维数据插值函数 interp2 的使用方法和参数说明。 一、interp1 函数 interp1 函数用于一维...
RBF神经网络,即径向基函数(Radial Basis Function)神经网络,是一种人工神经网络,它使用径向基函数作为激活函数。RBF神经网络是前馈神经网络的一种,它将网络的输入空间映射到一个隐层空间,该隐层通常使用径向...
基于matlab的人工神经网络激活函数示例基于matlab的人工神经网络激活函数示例
在神经网络领域,激活函数是不可或...理解这些函数的特性、优缺点并结合实际应用,是提升神经网络性能的关键。通过深入学习"各种激活函数比较共10页.pdf"这份资料,我们可以更全面地了解这些函数,并做出更明智的选择。
不同的激活函数有不同的优缺点,适应不同的问题和数据特性。在实际应用中,研究者们不断探索新的激活函数,以提高神经网络的性能和训练效率。例如,ReLU系列的变种在深度学习中得到了广泛应用,因为它们在一定程度上...
高级函数汇总
5. **邓多项式激活函数**:尽管该多项式作为激活函数能够显著提高BP算法的收敛速度,但容易陷入局部最优解,需要采取额外措施来解决。 6. **双极性激活函数**:通过调整输入范围和偏置,使输出范围变为±1,提高了...
SAS常用基础函数汇总
代码 基于粒子群算法的寻优算法-非线性函数极值寻优代码 基于粒子群算法的寻优算法-非线性函数极值寻优代码 基于粒子群算法的寻优算法-非线性函数极值寻优代码 基于粒子群算法的寻优算法-非线性函数极值寻优代码 ...
OpenCV 库提供了大量的函数来处理和识别图像,这些函数可以分为以下几个部分:图像处理函数、图像识别函数、视频处理函数和其他函数。 图像处理函数 图像处理函数是 OpenCV 库中最基本的一部分,这些函数可以对...
SQL 语言中有多种类型的函数,可以按照不同的分类方式来分类,下面将从函数类别、聚合函数、转换函数、加密函数、游标函数、日期和时间函数、数学函数、元数据函数、排名函数、行集函数、安全函数、字符串函数、系统...
Ⅰ.1 统计工具箱函数汇总 表Ⅰ-1 概率密度函数 表Ⅰ-2 累加分布函数 表Ⅰ-3 累加分布函数的逆函数 表Ⅰ-4 随机数生成器函数 表Ⅰ-5 分布函数的统计量函数 表Ⅰ-6 参数估计函数 表Ⅰ-7 统计量描述函数 表Ⅰ-8...
"面向CNN模型图像分类任务的高效激活函数设计" 本文主要讨论了面向CNN模型图像分类任务的高效激活函数设计问题。激活函数是CNN模型中的一种非线性因素,可以帮助模型更好地理解和拟合复杂函数模型,完成图像分类...