摘要: 在2018年3月13日云栖社区,来自哈尔滨工业大学的沈俊楠分享了典型模式-深度神经网络入门。本文详细介绍了关于深度神经网络的发展历程,并详细介绍了各个阶段模型的结构及特点。
哈尔滨工业大学的沈俊楠分享了典型模式-深度神经网络入门。本文详细介绍了关于深度神经网络的发展历程,并详细介绍了各个阶段模型的结构及特点。
直播回顾请点击
以下是精彩视频内容整理:
问题引出
学习知识从问题引出入手是一个很好的方法,所以本文将可以围绕下面三个问题来展开:
1.DNN和CNN有什么不同?有什么关系?如何定义?
2.为什么DNN现在这么火,它经历怎么一个发展历程?
3.DNN的结构很复杂,怎么能实际入门试一下呢?
本文思维导图如下:
发展历程
DNN-定义和概念
在卷积神经网络中,卷积操作和池化操作有机的堆叠在一起,一起组成了CNN的主干。
同样是受到猕猴视网膜与视觉皮层之间多层网络的启发,深度神经网络架构架构应运而生,且取得了良好的性能。可以说,DNN其实是一种架构,是指深度超过几个相似层的神经网络结构,一般能够达到几十层,或者由一些复杂的模块组成。
ILSVRC(ImageNet大规模视觉识别挑战赛)每年都不断被深度学习刷榜,随着模型变得越来越深,Top-5的错误率也越来越低,目前降低到了3.5%附近,而人类在ImageNet数据集合上的辨识错误率大概在5.1%,也就是目前的深度学习模型识别能力已经超过了人类。
从AlexNet到MobileNet
Alexnet
AlexNet是首次把卷积神经网络引入计算机视觉领域并取得突破性成绩的模型。
AlexNet有Alex Krizhevsky、llya Sutskever、Geoff Hinton提出,获得了ILSVRC 2012年的冠军,再top-5项目中错误率仅仅15.3%,相对于使用传统方法的亚军26.2%的成绩优良重大突破。
相比之前的LeNet,AlexNet通过堆叠卷积层使得模型更深更宽,同时借助GPU使得训练再可接受的时间范围内得到结果,推动了卷积神经网络甚至是深度学习的发展。
下面是AlexNet的架构:
AlexNet的特点有:
1.借助拥有1500万标签、22000分类的ImageNet数据集来训练模型,接近真实世界中的复杂场景。
2.使用更深更宽的CNN来提高学习容量。
3.灵活运用ReLU作为激活函数,相对Sigmoid大幅度提高了训练速度。
4.使用多块GPU提高模型的容量。
5.通过LRN引入神经元之间的竞争以帮助泛化,提高模型性能。
6.通过Dropout随机忽略部分神经元,避免过拟合。
7.通过缩放、翻转、切割等数据增强方式避免过拟合。
以上为典型的深度神经网络运用的方法。
AlexNet在研发的时候,使用的GTX580仅有3GB的显存,所以创造性的把模型拆解在两张显卡中,架构如下:
1.第一层是卷积层,针对224x224x3的输入图片进行卷积操作,参数为:卷积核11x11x3,数量96,步长4,LRN正态化后进行2x2的最大池化。
2.第二层是卷积层,仅与同一个GPU内的第一层输出进行卷积,参数为:卷积核5x5x48,疏朗256,LRN正态化后进行2x2的最大池化。
3.第三层是卷积层,与第二层所有输出进行卷积,参数为:3x3x256,数量384.
4.第四层是卷积层,仅与同一个GPU内的第三层输出进行卷积,参数为:卷积核3x3x192,数量384。
5.第五层是卷积层,仅与同一个GPU内的第三层输出进行卷积,参数为:卷积核3x3x192,数量256,进行2x2的最大池化。
6.第六层是全连接层,4096个神经元。
7.第七层是全连接层,4096个神经元。
8.第八层是全连接层,代表1000个分类的SoftMax。
VGGNet
VGGNet是Oxford的Visual Geometry Group提出的CNN模型,获得了ILSVRC 2014年定位比赛以25.3%错误率获得冠军,分类比赛仅次于GoogLeNet,top-5的错误率为7.32%。
VGGNet和GooLeNet分别独立采用了更深的网络结果,但是在设计上各有千秋。VGGNet继承了AlexNet的设计,但是做了更多的优化:
1.更深的网络,常用的有16层和9层,取得良好性能。
2.更简单,仅仅使用了3x3卷积核以及2x2最大池化,探索了深度与性能之间的关系。
3.收到Network in Network的影响,VGGNet的某些模型也用到了1x1卷积核。
4.采用多块GPU并行训练。
5.由于效果不明显,放弃了Local Response Normailzation的使用。
网络结构大致如下:
在深度学习中,我们经常需要用到一些技巧,比如将图片进行去中心化、旋转、水平位移、垂直位移、水平翻转等,通过数据增强(Data Augmentation)以减少过拟合。
ResNet
ResNet(Residual Neural Network)由微软亚洲研究院的Kaiming He等提出,通过使用Residual Unit成功训练152层深的神经网络,在ILSVRC2015比赛中获得了冠军,top-5错误率为3.57%,同时参数量却比VGGNet低很多。
ResNet的灵感出自于这个问题:之前的研究证明了深度对模型性能至关重要,但随着深度的增加,准确度反而出现衰减。令人意外的是,衰减不是来自过拟合,因为训练集上的准确度下降了。极端情况下,假设追加的层都是等价映射,起码不应该带来训练集上的误差上升。
解决方案是引入残差:某层网络的输入是x,期望输出是H(x),如果我们直接把输入x传到输出作为等价映射,而中间的非线性层就是F(x)=H(x)-x作为残差。我们猜测优化残差映射要比优化原先的映射要简单,极端情况下把残差F(x)压缩为0即可。如图所示:
以上就是ResNet的残差单元。残差单元的好处是反响传播的时候,梯度可以直接传递给上一层,有效率低梯度消失从而可以支撑更深的网络。同时,ResNet也运用了Batch Normalization,残差单元将比以前更容易训练且泛化性更好。
GoogLeNet
GoogLeNet是由Christian Szegedy等提出,主要思路是使用更深的网络取得更好的性能,同时通过优化来减少计算的损耗。
GoogLeNet的模型为Network in Network。AlexNet中卷积层用线性卷积核对图像进行内积运算,在每个局部输出后面跟着一个非线性的激活函数,最终得到的叫做特征函数。而这种卷积核是一种广义线性模型,进行特征提取时隐含地假设了特征是线性可分的,可实际问题往往不是这样的。为了解决这个问题,Network in Network提出了使用多层感知机来实现非线性的卷积,实际相当于插入1x1卷积同时保持特征图像大小不变。
使用1x1卷积的好处有:通过非线性变化增加本地特征抽象能力,避免全连接层以降低过拟合,降低维度,只需要更少的参数就可以。Network in Network从某种意义上证实了,更深的网络性能更好。
GoogLenet把inception堆叠起来,通过稀疏的网络来建立更深的网络,在确保模型性能的同时,控制了计算量,从而更适合在资源有限的场景下进行预测。
MobileNet
传统的CNN模型往往专注于性能,但是在手机和嵌入式应用场景中缺乏可行性。针对这个问题,Google提出了MobileNet这一新模型架构。
MobileNet时小尺寸但是高性能的CNN模型,帮助用户在移动设备或者嵌入式设备上实现计算机视觉,而无需借助云端的计算力。随着移动设备计算力的日益增长,MobileNet可以帮助AI技术加载到移动设备中。
MobileNet有以下特性:借助深度方向可分离卷积来降低参数个数和计算复杂度;引入宽都和分辨率两个全局超参数,可以再延迟和准确性之间找到平衡点,适合手机和嵌入式应用;拥有颇具竞争力的性能,在ImageNet分类等任务得到验证;在物体检测、细粒度识别、人脸属性和大规模地理地位等手机应用中具备可行性。
理解实现-VGGNET风格迁移
风格迁移是深度学习众多应用中非常有趣的一种,我们可以使用这种方法把一张图片的风格“迁移”到另一张图片上生成一张新的图片。
深度学习在计算机视觉领域应用尤为明显,图像分类、识别、定位、超分辨率、转换、迁移、描述等等都已经可以使用深度学习技术实现。其背后的技术可以一言以蔽之:深度卷积神经网络具有超强的图像特征提取能力。
其中,风格迁移算法的成功,其主要基于两点:1.两张图像经过预训练好的分类网络,着提取出的高维特征之间的歇氏距离越小,则这两张图象内容越相似。2.两张图像经过预训练好的分类网络,着提取出的低维特在树枝上基本相等,则这两张图像风格越相似。基于这两点,就可以设计合适的损失函数优化网络。
对于深度网络来讲,深度卷积分类网络具有良好的特征提取能力,不同层提取的特征具有不同的含义,每一个训练好的网络都可以视为是一个良好的特征提取器,另外,深度网络有一层层的非线性函数组成,可以视为时复杂的多元非线性函数,此函数完成输入图像到输出的映射。因此,万千可以使用训练好的深度网络作为一个损失函数计算器。
模型结构如图所示,网络框架分类两部分,其一部分时图像转换网络T(Image transform net)和预训练好的损失计算网络VGG-16,图像转换网络T以内容图像x为输入,输出风格迁移后的图像y,随后内容图像yc,风格图像ys,以及y’输入vgg-16计算特征。
在此次深度神经网络中参数损失函数分为两部分,对于最终图像y’,一本分是内容,一本分是风格。
损失内容:,其中代表深度卷积网络VGG-16感知损失:,其中G是Gram矩阵,计算过程为:
总损失定计算方式:
本文为云栖社区原创内容,未经允许不得转载。
相关推荐
Alex在2012年提出的alexnet网络结构模型引爆了神经网络的应用热潮,并赢得了2012届图像识别大赛的冠军,使得CNN成为在图像分类上的核心算法模型。
通过这个项目,你可以深入了解AlexNet的结构以及如何用PyTorch实现深度学习模型。同时,这也将提供一个实践深度学习和理解网络架构的好机会。尽管现代的深度学习模型已经超越了AlexNet,但其设计理念和在历史上的...
**基于Matlab的深度学习工具箱模型AlexNet网络** AlexNet是深度学习领域的一个里程碑,由Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton在2012年的ImageNet Large Scale Visual Recognition Challenge (ILSVRC)...
深度神经网络(Deep Neural Networks,DNNs)是人工智能领域中的关键组成部分,特别是在计算机视觉、自然语言处理和图像生成等领域有着广泛的应用。本合辑包含了10篇具有里程碑意义的深度学习论文,它们推动了神经...
AlexNet是第一个在大规模图像分类任务上取得显著效果的深度卷积神经网络(CNN)。它的成功证明了深度学习在图像识别上的潜力,为后续的VGGNet、ResNet等深度模型奠定了基础。 **二、Keras框架** Keras是一个高级...
在深度学习的方法论方面,本综述涵盖了包括深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN)及其变体如长短期记忆网络(LSTM)和门控循环单元(GRU)、自编码器(AE)、深度信念网络(DBN)、生成...
在本文中,我们将深入探讨如何在MATLAB中利用Alexnet模型构建卷积神经网络(CNN)来训练和测试自定义数据集。Alexnet是深度学习领域的一个里程碑,它在2012年的ImageNet竞赛中取得了显著的成功,开启了深度学习在...
本资源包含满文单词识别与可视化分析的源码及项目说明,采用经典深度神经网络模型AlexNet、VGG19和GoogLeNet。这些模型分别对666类满文数据集中的多种字体单词图像进行识别,并进行详细的可视化分析。通过本项目,...
深度学习深度卷积神经网络(AlexNet)
人工智能基础视频教程零基础入门课程 第十四章 ...十一章 DNN深度神经网络手写图片识别 十二章 TensorBoard可视化 十三章 卷积神经网络、CNN识别图片 十四章 卷积神经网络深入、AlexNet模型 十五章 Keras深度学习框架
传统方法可能无法有效应对这种复杂性,因此研究者采用深度学习,特别是基于AlexNet的深度神经网络来解决这个问题。 AlexNet是一种经典的深度卷积神经网络(CNN),在图像识别领域表现出色。在本研究中,研究人员...
为了解决这些问题,本文将深度卷积神经网络AlexNet引入到验证码字符识别中,并对传统的深度卷积神经网络AlexNet的结构进行了改进,将原来的单任务学习模型改造成多任务学习模型。 深度卷积神经网络AlexNet是一种...
经典神经网络alexNET的网络框架cfg文件
python卷积神经网络案例Alexnet的有关代码,有利于初学者借鉴并学习
经典神经网络alexnet预训练权重
2. AlexNet卷积神经网络:一种基于卷积神经网络的深度学习模型,由Alex Krizhevsky等人在2012年提出,曾经获得ImageNet图像识别挑战赛的冠军。 3. 岭回归分析(Ridge Regression):一种线性回归算法,通过引入惩罚...
此外,深度神经网络还具有层次结构,可以通过逐层抽象的方式从简单特征到复杂特征学习,进而实现更准确的分类。 在众多深度神经网络模型中,AlexNet是一系列卷积神经网络(CNNs)的代表之一。它在2012年ImageNet大...
首先,AlexNet是一种卷积神经网络(CNN),它由多个卷积层、池化层、全连接层和一个Softmax分类层组成。其主要结构包括: 1. **卷积层**:通过卷积核对输入图像进行操作,提取特征。AlexNet通常包含多个卷积层,每...
在OpenCV 3.3版本中,引入了深度神经网络(Deep Neural Network,DNN)模块,这使得在OpenCV中直接集成和运行预训练的深度学习模型变得可能。本课程配套PDF资料将深入讲解如何利用这个模块进行实际应用。 深度学习...