计算机视觉:卷积神经网络基础 -尊龙凯时首页
计算机视觉:卷积神经网络基础
- 计算机视觉概述
- 计算机视觉的发展历程
- 卷积神经网络
- 卷积(convolution)
- 卷积计算
- 填充(padding)
- 步幅(stride)
- 感受野(receptive field)
- 多输入通道、多输出通道和批量操作
- 飞桨卷积api介绍
- 卷积算子应用举例
- 池化(pooling)
- relu激活函数
- 批归一化(batch normalization)
- 丢弃法(dropout)
- 计算机视觉作为一门让机器学会如何去“看”的科学学科,具体的说,就是让机器去识别摄像机拍摄的图片或视频中的物体,检测出物体所在的位置,并对目标物体进行跟踪,从而理解并描述出图片或视频里的场景和故事,以此来模拟人脑视觉系统。因此,计算机视觉也通常被叫做机器视觉,其目的是建立能够从图像或者视频中“感知”信息的人工系统。
- 计算机视觉技术经过几十年的发展,已经在交通(车牌识别、道路违章抓拍)、安防(人脸闸机、小区监控)、金融(刷脸支付、柜台的自动票据识别)、医疗(医疗影像诊断)、工业生产(产品缺陷自动检测)等多个领域应用,影响或正在改变人们的日常生活和工业生产方式。未来,随着技术的不断演进,必将涌现出更多的产品应用,为我们的生活创造更大的便利和更广阔的机会。
- 计算机视觉技术在各领域的应用
由于篇幅所限,本章将重点介绍计算机视觉的经典模型(卷积神经网络)和两个典型任务(图像分类和目标检测)。主要涵盖如下内容:
-
卷积神经网络:卷积神经网络(convolutional neural networks, cnn)是计算机视觉技术最经典的模型结构。本教程主要介绍卷积神经网络的常用模块,包括:卷积、池化、激活函数、批归一化、dropout等。
-
图像分类:介绍图像分类算法的经典模型结构,包括:lenet、alexnet、vgg、googlenet、resnet,并通过眼疾筛查的案例展示算法的应用。
-
目标检测:介绍目标检测yolo-v3算法,并通过林业病虫害检测案例展示yolo-v3算法的应用。
- 计算机视觉的发展历程要从生物视觉讲起。对于生物视觉的起源,目前学术界尚没有形成定论。有研究者认为最早的生物视觉形成于距今约7亿年前的水母之中,也有研究者认为生物视觉产生于距今约5亿年前寒武纪。寒武纪生物大爆发的原因一直是个未解之谜,不过可以肯定的是在寒武纪动物具有了视觉能力,捕食者可以更容易地发现猎物,被捕食者也可以更早的发现天敌的位置。视觉能力加剧了猎手和猎物之间的博弈,也催生出更加激烈的生存演化规则。
- 视觉系统的形成有力地推动了食物链的演化,加速了生物进化过程,是生物发展史上重要的里程碑。经过几亿年的演化,目前人类的视觉系统已经具备非常高的复杂度和强大的功能,人脑中神经元数目达到了1000亿个,这些神经元通过网络互相连接,这样庞大的视觉神经网络使得我们可以很轻松的观察周围的世界.
- 对人类来说,识别猫和狗是件非常容易的事。但对计算机来说,即使是一个精通编程的高手,也很难轻松写出具有通用性的程序(比如:假设程序认为体型大的是狗,体型小的是猫,但由于拍摄角度不同,可能一张图片上猫占据的像素比狗还多)。那么,如何让计算机也能像人一样看懂周围的世界呢?研究者尝试着从不同的角度去解决这个问题,由此也发展出一系列的子任务.
(1) image classification: 图像分类,用于识别图像中物体的类别(如:bottle、cup、cube)。
(2) object localization: 目标检测,用于检测图像中每个物体的类别,并准确标出它们的位置。
(3) semantic segmentation: 图像语义分割,用于标出图像中每个像素点所属的类别,属于同一类别的像素点用一个颜色标识。
(4) instance segmentation: 实例分割,值得注意的是,(b)中的目标检测任务只需要标注出物体位置,而(d)中的实例分割任务不仅要标注出物体位置,还需要标注出物体的外形轮廓。
在早期的图像分类任务中,通常是先人工提取图像特征,再用机器学习算法对这些特征进行分类,分类的结果强依赖于特征提取方法,往往只有经验丰富的研究者才能完成.
在这种背景下,基于神经网络的特征提取方法应运而生。yann lecun是最早将卷积神经网络应用到图像识别领域的,其主要逻辑是使用卷积神经网络提取图像特征,并对图像所属类别进行预测,通过训练数据不断调整网络参数,最终形成一套能自动提取图像特征并对这些特征进行分类的网络。
这一方法在手写数字识别任务上取得了极大的成功,但在接下来的时间里,却没有得到很好的发展。其主要原因一方面是数据集不完善,只能处理简单任务,在大尺寸的数据上容易发生过拟合;另一方面是硬件瓶颈,网络模型复杂时,计算速度会特别慢。
目前,随着互联网技术的不断进步,数据量呈现大规模的增长,越来越丰富的数据集不断涌现。另外,得益于硬件能力的提升,计算机的算力也越来越强大。不断有研究者将新的模型和算法应用到计算机视觉领域。由此催生了越来越丰富的模型结构和更加准确的精度,同时计算机视觉所处理的问题也越来越丰富,包括分类、检测、分割、场景描述、图像生成和风格变换等,甚至还不仅仅局限于2维图片,包括视频处理技术和3d视觉等。
卷积神经网络是目前计算机视觉中使用最普遍的模型结构。本章节主要介绍卷积神经网络的一些基础模块,包括:
- 卷积(convolution)
- 池化(pooling)
- relu激活函数
- 批归一化(batch normalization)
- 丢弃法(dropout)
在手写数字识别任务中,应用的是全连接层的特征提取,即将一张图片上的所有像素点展开成一个1维向量输入网络,存在如下两个问题:
输入数据的空间信息被丢失。 空间上相邻的像素点往往具有相似的rgb值,rgb的各个通道之间的数据通常密切相关,但是转化成1维向量时,这些信息被丢失。同时,图像数据的形状信息中,可能隐藏着某种本质的模式,但是转变成1维向量输入全连接神经网络时,这些模式也会被忽略。
模型参数过多,容易发生过拟合。 在手写数字识别案例中,每个像素点都要跟所有输出的神经元相连接。当图片尺寸变大时,输入神经元的个数会按图片尺寸的平方增大,导致模型参数过多,容易发生过拟合。
为了解决上述问题,我们引入卷积神经网络进行特征提取,既能提取到相邻像素点之间的特征模式,又能保证参数的个数不随图片尺寸变化。一个典型的卷积神经网络结构如图所示,多层卷积和池化层组合作用在输入图片上,在网络的最后通常会加入一系列全连接层,relu激活函数一般加在卷积或者全连接层的输出上,网络中通常还会加入dropout来防止过拟合。
说明:
在卷积神经网络中,计算范围是在像素点的空间邻域内进行的,卷积核参数的数目也远小于全连接层。卷积核本身与输入图片大小无关,它代表了对空间邻域内某种特征模式的提取。比如,有些卷积核提取物体边缘特征,有些卷积核提取物体拐角处的特征,图像上不同区域共享同一个卷积核。当输入图片大小不一样时,仍然可以使用同一个卷积核进行操作。
卷积(convolution)
这一小节将介绍卷积算法的原理和实现方案,并通过具体的案例展示如何使用卷积对图片进行操作,主要涵盖如下内容:
-
卷积计算
-
填充(padding)
-
步幅(stride)
-
感受野(receptive field)
-
多输入通道、多输出通道和批量操作
-
飞桨卷积api介绍
-
卷积算子应用举例
卷积计算
卷积是数学分析中的一种积分变换的方法,在图像处理中采用的是卷积的离散形式。这里需要说明的是,在卷积神经网络中,卷积层的实现方式实际上是数学中定义的互相关 (cross-correlation)运算,与数学分析中的卷积定义有所不同,这里跟其他框架和卷积神经网络的教程保持一致,都使用互相关运算作为卷积的定义,具体的计算过程如图所示。
说明:
卷积核(kernel)也被叫做滤波器(filter),假设卷积核的高和宽分别为khk_hkh和kwk_wkw,则将称为kh×kwk_h\times k_wkh×kw卷积,比如3×53\times53×5卷积,就是指卷积核的高为3, 宽为5。
- 如图(a)所示:左边的图大小是3×33\times33×3,表示输入数据是一个维度为3×33\times33×3的二维数组;中间的图大小是2×22\times22×2,表示一个维度为2×22\times22×2的二维数组,我们将这个二维数组称为卷积核。先将卷积核的左上角与输入数据的左上角(即:输入数据的(0, 0)位置)对齐,把卷积核的每个元素跟其位置对应的输入数据中的元素相乘,再把所有乘积相加,得到卷积输出的第一个结果。
0×1 1×2 2×4 3×5=25(a)0\times1 1\times2 2\times4 3\times5 = 25 \ \ \ \ \ \ \ (a)0×11×22×43×5=25 (a)
- 如图(b)所示:将卷积核向右滑动,让卷积核左上角与输入数据中的(0,1)位置对齐,同样将卷积核的每个元素跟其位置对应的输入数据中的元素相乘,再把这4个乘积相加,得到卷积输出的第二个结果。
0×2 1×3 2×5 3×6=31(b)0\times2 1\times3 2\times5 3\times6 = 31 \ \ \ \ \ \ \ (b)0×21×32×53×6=31 (b)
- 如图(c)所示:将卷积核向下滑动,让卷积核左上角与输入数据中的(1, 0)位置对齐,可以计算得到卷积输出的第三个结果,
0×4 1×5 2×7 3×8=43(c)0\times4 1\times5 2\times7 3\times8 = 43 \ \ \ \ \ \ \ (c)0×41×52×73×8=43 (c)
- 如图(d)所示:将卷积核向右滑动,让卷积核左上角与输入数据中的(1, 1)位置对齐,可以计算得到卷积输出的第四个结果,
0×5 1×6 2×8 3×9=49(d)0\times5 1\times6 2\times8 3\times9 = 49 \ \ \ \ \ \ \ (d)0×51×62×83×9=49 (d)
卷积核的计算过程可以用下面的数学公式表示,其中 aaa 代表输入图片, bbb 代表输出特征图,www 是卷积核参数,它们都是二维数组,∑u,v\sum{u,v}{\ }∑u,v 表示对卷积核参数进行遍历并求和。
b[i,j]=∑u,va[i u,j v]⋅w[u,v]b[i, j] = \sum_{u,v}{a[i u, j v]\cdot w[u, v]}b[i,j]=u,v∑a[iu,jv]⋅w[u,v]
举例说明,假如上图中卷积核大小是2×22\times 22×2,则uuu可以取0和1,vvv也可以取0和1,也就是说:
b[i,j]=a[i 0,j 0]⋅w[0,0] a[i 0,j 1]⋅w[0,1] a[i 1,j 0]⋅w[1,0] a[i 1,j 1]⋅w[1,1]b[i, j] = a[i 0, j 0]\cdot w[0, 0] a[i 0, j 1]\cdot w[0, 1] a[i 1, j 0]\cdot w[1, 0] a[i 1, j 1]\cdot w[1, 1]b[i,j]=a[i0,j0]⋅w[0,0]a[i0,j1]⋅w[0,1]a[i1,j0]⋅w[1,0]a[i1,j1]⋅w[1,1]
可以自行验证,当[i,j][i, j][i,j]取不同值时,根据此公式计算的结果与上图中的例子是否一致。
- 【思考】 当卷积核大小为3×33 \times 33×3时,b和a之间的对应关系应该是怎样的?
其它说明:
在卷积神经网络中,一个卷积算子除了上面描述的卷积过程之外,还包括加上偏置项的操作。例如假设偏置为1,则上面卷积计算的结果为:
0×1 1×2 2×4 3×5 1=260\times1 1\times2 2\times4 3\times5 \mathbf{\ 1} = 260×11×22×43×5 1=26
0×2 1×3 2×5 3×6 1=320\times2 1\times3 2\times5 3\times6 \mathbf{\ 1} = 320×21×32×53×6 1=32
0×4 1×5 2×7 3×8 1=440\times4 1\times5 2\times7 3\times8 \mathbf{\ 1} = 440×41×52×73×8 1=44
0×5 1×6 2×8 3×9 1=500\times5 1\times6 2\times8 3\times9 \mathbf{\ 1} = 500×51×62×83×9 1=50
填充(padding)
在上面的例子中,输入图片尺寸为3×33\times33×3,输出图片尺寸为2×22\times22×2,经过一次卷积之后,图片尺寸变小。卷积输出特征图的尺寸计算方法如下:
hout=h−kh 1h_{out} = h - k_h 1hout=h−kh1
wout=w−kw 1w_{out} = w - k_w 1wout=w−kw1
如果输入尺寸为4,卷积核大小为3时,输出尺寸为4−3 1=24-3 1=24−31=2。读者可以自行检查当输入图片和卷积核为其他尺寸时,上述计算式是否成立。通过多次计算我们发现,当卷积核尺寸大于1时,输出特征图的尺寸会小于输入图片尺寸。说明经过多次卷积之后尺寸会不断减小。为了避免卷积之后图片尺寸变小,通常会在图片的外围进行填充(padding)。
-
如图8(a)所示:填充的大小为1,填充值为0。填充之后,输入图片尺寸从4×44\times44×4变成了6×66\times66×6,使用3×33\times33×3的卷积核,输出图片尺寸为4×44\times44×4。
-
如图8(b)所示:填充的大小为2,填充值为0。填充之后,输入图片尺寸从4×44\times44×4变成了8×88\times88×8,使用3×33\times33×3的卷积核,输出图片尺寸为6×66\times66×6。
如果在图片高度方向,在第一行之前填充ph1p_{h1}ph1行,在最后一行之后填充ph2p_{h2}ph2行;在图片的宽度方向,在第1列之前填充pw1p_{w1}pw1列,在最后1列之后填充pw2p_{w2}pw2列;则填充之后的图片尺寸为(h ph1 ph2)×(w pw1 pw2)(h p_{h1} p_{h2})\times(w p_{w1} p_{w2})(hph1ph2)×(wpw1pw2)。经过大小为kh×kwk_h\times k_wkh×kw的卷积核操作之后,输出图片的尺寸为:
hout=h ph1 ph2−kh 1h_{out} = h p_{h1} p_{h2} - k_h 1hout=hph1ph2−kh1
wout=w pw1 pw2−kw 1w_{out} = w p_{w1} p_{w2} - k_w 1wout=wpw1pw2−kw1
在卷积计算过程中,通常会在高度或者宽度的两侧采取等量填充,即ph1=ph2=ph,pw1=pw2=pwp_{h1} = p_{h2} = p_h,\ \ p_{w1} = p_{w2} = p_wph1=ph2=ph, pw1=pw2=pw,上面计算公式也就变为:
hout=h 2ph−kh 1h_{out} = h 2p_h - k_h 1hout=h2ph−kh1
wout=w 2pw−kw 1w_{out} = w 2p_w - k_w 1wout=w2pw−kw1
卷积核大小通常使用1,3,5,7这样的奇数,如果使用的填充大小为ph=(kh−1)/2,pw=(kw−1)/2p_h=(k_h-1)/2, p_w=(k_w-1)/2ph=(kh−1)/2,pw=(kw−1)/2,则卷积之后图像尺寸不变。例如当卷积核大小为3时,padding大小为1,卷积之后图像尺寸不变;同理,如果卷积核大小为5,使用padding的大小为2,也能保持图像尺寸不变。
步幅(stride)
卷积核每次滑动一个像素点,这是步幅为1的特殊情况。下图步幅为2的卷积过程,卷积核在图片上移动时,每次移动大小为2个像素点。
当宽和高方向的步幅分别为shs_hsh和sws_wsw时,输出特征图尺寸的计算公式是:
hout=h 2ph−khsh 1h_{out} = \frac{h 2p_h - k_h}{s_h} 1hout=shh2ph−kh1
wout=w 2pw−kwsw 1w_{out} = \frac{w 2p_w - k_w}{s_w} 1wout=sww2pw−kw1
假设输入图片尺寸是h×w=100×100h\times w = 100 \times 100h×w=100×100,卷积核大小kh×kw=3×3k_h \times k_w = 3 \times 3kh×kw=3×3,填充ph=pw=1p_h = p_w = 1ph=pw=1,步幅为sh=sw=2s_h = s_w = 2sh=sw=2,则输出特征图的尺寸为:
hout=100 2−32 1=50h_{out} = \frac{100 2 - 3}{2} 1 = 50hout=21002−31=50
wout=100 2−32 1=50w_{out} = \frac{100 2 - 3}{2} 1 = 50wout=21002−31=50
感受野(receptive field)
输出特征图上每个点的数值,是由输入图片上大小为kh×kwk_h\times k_wkh×kw的区域的元素与卷积核每个元素相乘再相加得到的,所以输入图像上kh×kwk_h\times k_wkh×kw区域内每个元素数值的改变,都会影响输出点的像素值。我们将这个区域叫做输出特征图上对应点的感受野。感受野内每个元素数值的变动,都会影响输出点的数值变化。比如3×33\times33×3卷积对应的感受野大小就是3×33\times33×3
多输入通道、多输出通道和批量操作
前面介绍的卷积计算过程比较简单,实际应用时,处理的问题要复杂的多。例如:对于彩色图片有rgb三个通道,需要处理多输入通道的场景。输出特征图往往也会具有多个通道,而且在神经网络的计算中常常是把一个批次的样本放在一起计算,所以卷积算子需要具有批量处理多输入和多输出通道数据的功能,下面将分别介绍这几种场景的操作方式。
- 多输入通道场景
上面的例子中,卷积层的数据是一个2维数组,但实际上一张图片往往含有rgb三个通道,要计算卷积的输出结果,卷积核的形式也会发生变化。假设输入图片的通道数为cinc_{in}cin,输入数据的形状是cin×hin×winc_{in}\times{h_{in}}\times{w_{in}}cin×hin×win,计算过程如 图 所示。
对每个通道分别设计一个2维数组作为卷积核,卷积核数组的形状是cin×kh×kwc_{in}\times{k_h}\times{k_w}cin×kh×kw。
对任一通道cin∈[0,cin)c_{in} \in [0, c_{in})cin∈[0,cin),分别用大小为kh×kwk_h\times{k_w}kh×kw的卷积核在大小为hin×winh_{in}\times{w_{in}}hin×win的二维数组上做卷积。
将这cinc_{in}cin个通道的计算结果相加,得到的是一个形状为hout×wouth_{out}\times{w_{out}}hout×wout的二维数组。
- 多输出通道场景
一般来说,卷积操作的输出特征图也会具有多个通道coutc_{out}cout,这时我们需要设计coutc_{out}cout个维度为cin×kh×kwc_{in}\times{k_h}\times{k_w}cin×kh×kw的卷积核,卷积核数组的维度是cout×cin×kh×kwc_{out}\times c_{in}\times{k_h}\times{k_w}cout×cin×kh×kw,如 图 所示。
说明:
通常将卷积核的输出通道数叫做卷积核的个数。
- 批量操作
在卷积神经网络的计算中,通常将多个样本放在一起形成一个mini-batch进行批量操作,即输入数据的维度是n×cin×hin×winn\times{c_{in}}\times{h_{in}}\times{w_{in}}n×cin×hin×win。由于会对每张图片使用同样的卷积核进行卷积操作,卷积核的维度与上面多输出通道的情况一样,仍然是cout×cin×kh×kwc_{out}\times c_{in}\times{k_h}\times{k_w}cout×cin×kh×kw,输出特征图的维度是n×cout×hout×woutn\times{c_{out}}\times{h_{out}}\times{w_{out}}n×cout×hout×wout,如 图 所示。
飞桨卷积api介绍
飞桨卷积算子对应的api是paddle.fluid.dygraph.conv2d,用户可以直接调用api进行计算,也可以在此基础上修改。常用的参数如下:
- num_channels (int) - 输入图像的通道数。
- num_fliters (int) - 卷积核的个数,和输出特征图通道数相同,相当于上文中的coutc_{out}cout。
- filter_size(int|tuple) - 卷积核大小,可以是整数,比如3,表示卷积核的高和宽均为3 ;或者是两个整数的list,例如[3,2],表示卷积核的高为3,宽为2。
- stride(int|tuple) - 步幅,可以是整数,默认值为1,表示垂直和水平滑动步幅均为1;或者是两个整数的list,例如[3,2],表示垂直滑动步幅为3,水平滑动步幅为2。
- padding(int|tuple) - 填充大小,可以是整数,比如1,表示竖直和水平边界填充大小均为1;或者是两个整数的list,例如[2,1],表示竖直边界填充大小为2,水平边界填充大小为1。
- act(str)- 应用于输出上的激活函数,如tanh、softmax、sigmoid,relu等,默认值为none。
输入数据维度[n,cin,hin,win][n, c_{in}, h_{in}, w_{in}][n,cin,hin,win],输出数据维度[n,num_filters,hout,wout][n, num\_filters, h_{out}, w_{out}][n,num_filters,hout,wout],权重参数www的维度[num_filters,cin,filter_size_h,filter_size_w][num\_filters, c_{in}, filter\_size\_h, filter\_size\_w][num_filters,cin,filter_size_h,filter_size_w],偏置参数bbb的维度是[num_filters][num\_filters][num_filters]。
卷积算子应用举例
下面介绍卷积算子在图片中应用的三个案例,并观察其计算结果。
案例1——简单的黑白边界检测
下面是使用conv2d算子完成一个图像边界检测的任务。图像左边为光亮部分,右边为黑暗部分,需要检测出光亮跟黑暗的分界处。
可以设置宽度方向的卷积核为[1,0,−1][1, 0, -1][1,0,−1],此卷积核会将宽度方向间隔为1的两个像素点的数值相减。当卷积核在图片上滑动的时候,如果它所覆盖的像素点位于亮度相同的区域,则左右间隔为1的两个像素点数值的差为0。只有当卷积核覆盖的像素点有的处于光亮区域,有的处在黑暗区域时,左右间隔为1的两个点像素值的差才不为0。将此卷积核作用到图片上,输出特征图上只有对应黑白分界线的地方像素值才不为0。具体代码如下所示,结果输出在下方的图案中。
案例2——图像中物体边缘检测
上面展示的是一个人为构造出来的简单图片使用卷积检测明暗分界处的例子,对于真实的图片,也可以使用合适的卷积核对它进行操作,用来检测物体的外形轮廓,观察输出特征图跟原图之间的对应关系,如下代码所示:
案例3——图像均值模糊
另外一种比较常见的卷积核是用当前像素跟它邻域内的像素取平均,这样可以使图像上噪声比较大的点变得更平滑,如下代码所示:
import matplotlib.pyplot as pltfrom pil import imageimport numpy as np import paddle import paddle.fluid as fluid from paddle.fluid.dygraph.nn import conv2d from paddle.fluid.initializer import numpyarrayinitializer# 读入图片并转成numpy.ndarray img = image.open('./work/images/000000355610.jpg').convert('l') img = np.array(img)# 换成灰度图with fluid.dygraph.guard():# 创建初始化参数w = np.ones([1, 1, 5, 5], dtype='float32') / 25conv = conv2d(num_channels=1, num_filters=1, filter_size=[5, 5],param_attr=fluid.paramattr(initializer=numpyarrayinitializer(value=w)))x = img.astype('float32')x = x.reshape(1, 1, img.shape[0], img.shape[1])x = fluid.dygraph.to_variable(x)y = conv(x)out = y.numpy()plt.figure(figsize=(20, 12)) f = plt.subplot(121) f.set_title('input image') plt.imshow(img, cmap='gray')f = plt.subplot(122) f.set_title('output feature map') out = out.squeeze() plt.imshow(out, cmap='gray')plt.show()池化(pooling)
池化是使用某一位置的相邻输出的总体统计特征代替网络在该位置的输出,其好处是当输入数据做出少量平移时,经过池化函数后的大多数输出还能保持不变。比如:当识别一张图像是否是人脸时,我们需要知道人脸左边有一只眼睛,右边也有一只眼睛,而不需要知道眼睛的精确位置,这时候通过池化某一片区域的像素点来得到总体统计特征会显得很有用。由于池化之后特征图会变得更小,如果后面连接的是全连接层,能有效的减小神经元的个数,节省存储空间并提高计算效率。
如 图 所示,将一个2×22\times 22×2的区域池化成一个像素点。通常有两种方法,平均池化和最大池化。
- 如图(a):平均池化。这里使用大小为2×22\times22×2的池化窗口,每次移动的步幅为2,对池化窗口覆盖区域内的像素取平均值,得到相应的输出特征图的像素值。
- 如图(b):最大池化。对池化窗口覆盖区域内的像素取最大值,得到输出特征图的像素值。当池化窗口在图片上滑动时,会得到整张输出特征图。池化窗口的大小称为池化大小,用kh×kwk_h \times k_wkh×kw表示。在卷积神经网络中用的比较多的是窗口大小为2×22 \times 22×2,步幅为2的池化。
与卷积核类似,池化窗口在图片上滑动时,每次移动的步长称为步幅,当宽和高方向的移动大小不一样时,分别用sws_wsw和shs_hsh表示。也可以对需要进行池化的图片进行填充,填充方式与卷积类似,假设在第一行之前填充ph1p_{h1}ph1行,在最后一行后面填充ph2p_{h2}ph2行。在第一列之前填充pw1p_{w1}pw1列,在最后一列之后填充pw2p_{w2}pw2列,则池化层的输出特征图大小为:
hout=h ph1 ph2−khsh 1h_{out} = \frac{h p_{h1} p_{h2} - k_h}{s_h} 1hout=shhph1ph2−kh1
wout=w pw1 pw2−kwsw 1w_{out} = \frac{w p_{w1} p_{w2} - k_w}{s_w} 1wout=swwpw1pw2−kw1
在卷积神经网络中,通常使用2×22\times22×2大小的池化窗口,步幅也使用2,填充为0,则输出特征图的尺寸为:
hout=h2h_{out} = \frac{h}{2}hout=2h
wout=w2w_{out} = \frac{w}{2}wout=2w
通过这种方式的池化,输出特征图的高和宽都减半,但通道数不会改变。
relu激活函数
前面介绍的网络结构中,普遍使用sigmoid函数做激活函数。在神经网络发展的早期,sigmoid函数用的比较多,而目前用的较多的激活函数是relu。这是因为sigmoid函数在反向传播过程中,容易造成梯度的衰减。让我们仔细观察sigmoid函数的形式,就能发现这一问题。
sigmoid激活函数定义如下:
y=11 e−xy = \frac{1}{1 e^{-x}}y=1e−x1
relu激活函数的定义如下:
y={0,(x<0)x,(x≥0)y=\left\{ \begin{aligned} 0 & , & (x<0) \\ x & , & (x\ge 0) \end{aligned} \right.y={0x,,(x<0)(x≥0)
下面的程序画出了sigmoid和relu函数的曲线图:
# relu和sigmoid激活函数示意图 import numpy as np import matplotlib.pyplot as plt import matplotlib.patches as patchesplt.figure(figsize=(10, 5))# 创建数据x x = np.arange(-10, 10, 0.1)# 计算sigmoid函数 s = 1.0 / (1 np.exp(0. - x))# 计算relu函数 y = np.clip(x, a_min=0, a_max=none)# 以下部分为画图代码 f = plt.subplot(121) plt.plot(x, s, color='r') currentaxis = plt.gca() plt.text(-9.0, 0.9, r'$y=sigmoid(x)$', fontsize=13) currentaxis.xaxis.set_label_text('x', fontsize=15) currentaxis.yaxis.set_label_text('y', fontsize=15)f = plt.subplot(122) plt.plot(x, y, color='g') plt.text(-3.0, 9, r'$y=relu(x)$', fontsize=13) currentaxis=plt.gca() currentaxis.xaxis.set_label_text('x', fontsize=15) currentaxis.yaxis.set_label_text('y', fontsize=15)plt.show()
梯度消失现象
在神经网络里面,将经过反向传播之后,梯度值衰减到接近于零的现象称作梯度消失现象。
从上面的函数曲线可以看出,当x为较大的正数的时候,sigmoid函数数值非常接近于1,函数曲线变得很平滑,在这些区域sigmoid函数的导数接近于零。当x为较小的负数的时候,sigmoid函数值非常接近于0,函数曲线也很平滑,在这些区域sigmoid函数的导数也接近于0。只有当x的取值在0附近时,sigmoid函数的导数才比较大。可以对sigmoid函数求导数,结果如下所示:
dydx=−1(1 e−x)2⋅d(e−x)dx=12 ex e−x\frac{dy}{dx} = -\frac{1}{(1 e^{-x})^2} \cdot \frac{d(e^{-x})}{dx} = \frac{1}{2 e^x e^{-x}}dxdy=−(1e−x)21⋅dxd(e−x)=2exe−x1
从上面的式子可以看出,sigmoid函数的导数dydx\frac{dy}{dx}dxdy最大值为14\frac{1}{4}41。前向传播时,y=sigmoid(x)y=sigmoid(x)y=sigmoid(x);而在反向传播过程中,x的梯度等于y的梯度乘以sigmoid函数的导数,如下所示:
∂l∂x=∂l∂y⋅∂y∂x\frac{\partial{l}}{\partial{x}} = \frac{\partial{l}}{\partial{y}} \cdot \frac{\partial{y}}{\partial{x}}∂x∂l=∂y∂l⋅∂x∂y
使得x的梯度数值最大也不会超过y的梯度的14\frac{1}{4}41。
由于最开始是将神经网络的参数随机初始化的,x很有可能取值在数值很大或者很小的区域,这些地方都可能造成sigmoid函数的导数接近于0,导致x的梯度接近于0;即使x取值在接近于0的地方,按上面的分析,经过sigmoid函数反向传播之后,x的梯度不超过y的梯度的14\frac{1}{4}41,如果有多层网络使用了sigmoid激活函数,则比较靠后的那些层梯度将衰减到非常小的值。
relu函数则不同,虽然在x<0x\lt 0x<0的地方,relu函数的导数为0。但是在x≥0x\ge 0x≥0的地方,relu函数的导数为1,能够将y的梯度完整的传递给x,而不会引起梯度消失。
批归一化(batch normalization)
批归一化方法方法(batch normalization,batchnorm)是由ioffe和szegedy于2015年提出的,已被广泛应用在深度学习中,其目的是对神经网络中间层的输出进行标准化处理,使得中间层的输出更加稳定。
通常我们会对神经网络的数据进行标准化处理,处理后的样本数据集满足均值为0,方差为1的统计分布,这是因为当输入数据的分布比较固定时,有利于算法的稳定和收敛。对于深度神经网络来说,由于参数是不断更新的,即使输入数据已经做过标准化处理,但是对于比较靠后的那些层,其接收到的输入仍然是剧烈变化的,通常会导致数值不稳定,模型很难收敛。batchnorm能够使神经网络中间层的输出变得更加稳定,并有如下三个优点:
-
使学习快速进行(能够使用较大的学习率)
-
降低模型对初始值的敏感性
-
从一定程度上抑制过拟合
batchnorm主要思路是在训练时按mini-batch为单位,对神经元的数值进行归一化,使数据的分布满足均值为0,方差为1。具体计算过程如下:
1. 计算mini-batch内样本的均值
μb←1m∑i=1mx(i)\mu_b \leftarrow \frac{1}{m}\sum_{i=1}^mx^{(i)}μb←m1i=1∑mx(i)
其中x(i)x^{(i)}x(i)表示mini-batch中的第iii个样本。
例如输入mini-batch包含3个样本,每个样本有2个特征,分别是:
x(1)=(1,2),x(2)=(3,6),x(3)=(5,10)x^{(1)} = (1,2), \ \ x^{(2)} = (3,6), \ \ x^{(3)} = (5,10)x(1)=(1,2), x(2)=(3,6), x(3)=(5,10)
对每个特征分别计算mini-batch内样本的均值:
μb0=1 3 53=3,μb1=2 6 103=6\mu_{b0} = \frac{1 3 5}{3} = 3, \ \ \ \mu_{b1} = \frac{2 6 10}{3} = 6μb0=3135=3, μb1=32610=6
则样本均值是:
μb=(μb0,μb1)=(3,6)\mu_{b} = (\mu_{b0}, \mu_{b1}) = (3, 6)μb=(μb0,μb1)=(3,6)
2. 计算mini-batch内样本的方差
σb2←1m∑i=1m(x(i)−μb)2\sigma_b^2 \leftarrow \frac{1}{m}\sum_{i=1}^m(x^{(i)} - \mu_b)^2σb2←m1i=1∑m(x(i)−μb)2
上面的计算公式先计算一个批次内样本的均值μb\mu_bμb和方差σb2\sigma_b^2σb2,然后再对输入数据做归一化,将其调整成均值为0,方差为1的分布。
对于上述给定的输入数据x(1),x(2),x(3)x^{(1)}, x^{(2)}, x^{(3)}x(1),x(2),x(3),可以计算出每个特征对应的方差:
σb02=13⋅((1−3)2 (3−3)2 (5−3)2)=83\sigma_{b0}^2 = \frac{1}{3} \cdot ((1-3)^2 (3-3)^2 (5-3)^2) = \frac{8}{3}σb02=31⋅((1−3)2(3−3)2(5−3)2)=38
σb12=13⋅((2−6)2 (6−6)2 (10−6)2)=323\sigma_{b1}^2 = \frac{1}{3} \cdot ((2-6)^2 (6-6)^2 (10-6)^2) = \frac{32}{3}σb12=31⋅((2−6)2(6−6)2(10−6)2)=332
则样本方差是:
σb2=(σb02,σb12)=(83,323)\sigma_{b}^2 = (\sigma_{b0}^2, \sigma_{b1}^2) = (\frac{8}{3}, \frac{32}{3})σb2=(σb02,σb12)=(38,332)
3. 计算标准化之后的输出
x^(i)←x(i)−μb(σb2 ϵ)\hat{x}^{(i)} \leftarrow \frac{x^{(i)} - \mu_b}{\sqrt{(\sigma_b^2 \epsilon)}}x^(i)←(σb2ϵ)x(i)−μb
其中ϵ\epsilonϵ是一个微小值(例如1e−71e-71e−7),其主要作用是为了防止分母为0。
对于上述给定的输入数据x(1),x(2),x(3)x^{(1)}, x^{(2)}, x^{(3)}x(1),x(2),x(3),可以计算出标准化之后的输出:
x^(1)=(1−383,2−6323)=(−32,−32)\hat{x}^{(1)} = (\frac{1 - 3}{\sqrt{\frac{8}{3}}}, \ \ \frac{2 - 6}{\sqrt{\frac{32}{3}}}) = (-\sqrt{\frac{3}{2}}, \ \ -\sqrt{\frac{3}{2}})x^(1)=(381−3, 3322−6)=(−23, −23)
x^(2)=(3−383,6−6323)=(0,0)\hat{x}^{(2)} = (\frac{3 - 3}{\sqrt{\frac{8}{3}}}, \ \ \frac{6 - 6}{\sqrt{\frac{32}{3}}}) = (0, \ \ 0) \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ x^(2)=(383−3, 3326−6)=(0, 0)
x^(3)=(5−383,10−6323)=(32,32)\hat{x}^{(3)} = (\frac{5 - 3}{\sqrt{\frac{8}{3}}}, \ \ \frac{10 - 6}{\sqrt{\frac{32}{3}}}) = (\sqrt{\frac{3}{2}}, \ \ \sqrt{\frac{3}{2}}) \ \ \ \ x^(3)=(385−3, 33210−6)=(23, 23)
- 读者可以自行验证由x^(1),x^(2),x^(3)\hat{x}^{(1)}, \hat{x}^{(2)}, \hat{x}^{(3)}x^(1),x^(2),x^(3)构成的mini-batch,是否满足均值为0,方差为1的分布。
如果强行限制输出层的分布是标准化的,可能会导致某些特征模式的丢失,所以在标准化之后,batchnorm会紧接着对数据做缩放和平移。
yi←γxi^ βy_i \leftarrow \gamma \hat{x_i} \betayi←γxi^β
其中γ\gammaγ和β\betaβ是可学习的参数,可以赋初始值γ=1,β=0\gamma = 1, \beta = 0γ=1,β=0,在训练过程中不断学习调整。
上面列出的是batchnorm方法的计算逻辑,下面针对两种类型的输入数据格式分别进行举例。飞桨支持输入数据的维度大小为2、3、4、5四种情况,这里给出的是维度大小为2和4的示例。
- 示例一: 当输入数据形状是[n,k][n, k][n,k]时,一般对应全连接层的输出,示例代码如下所示。
这种情况下会分别对k的每一个分量计算n个样本的均值和方差,数据和参数对应如下:
- 输入 x, [n, k]
- 输出 y, [n, k]
- 均值 μb\mu_bμb,[k, ]
- 方差 σb2\sigma_b^2σb2, [k, ]
- 缩放参数γ\gammaγ, [k, ]
- 平移参数β\betaβ, [k, ]
- 示例二: 当输入数据形状是[n,c,h,w][n, c, h, w][n,c,h,w]时, 一般对应卷积层的输出,示例代码如下所示。
这种情况下会沿着c这一维度进行展开,分别对每一个通道计算n个样本中总共n×h×wn\times h \times wn×h×w个像素点的均值和方差,数据和参数对应如下:
- 输入 x, [n, c, h, w]
- 输出 y, [n, c, h, w]
- 均值 μb\mu_bμb,[c, ]
- 方差 σb2\sigma_b^2σb2, [c, ]
- 缩放参数γ\gammaγ, [c, ]
- 平移参数β\betaβ, [c, ]
小窍门:
可能有读者会问:“batchnorm里面不是还要对标准化之后的结果做仿射变换吗,怎么使用numpy计算的结果与batchnorm算子一致?” 这是因为batchnorm算子里面自动设置初始值γ=1,β=0\gamma = 1, \beta = 0γ=1,β=0,这时候仿射变换相当于是恒等变换。在训练过程中这两个参数会不断的学习,这时仿射变换就会起作用。
# 输入数据形状是[n, c, h, w]时的batchnorm示例 import numpy as npimport paddle import paddle.fluid as fluid from paddle.fluid.dygraph.nn import batchnorm# 设置随机数种子,这样可以保证每次运行结果一致 np.random.seed(100) # 创建数据 data = np.random.rand(2,3,3,3).astype('float32') # 使用batchnorm计算归一化的输出 with fluid.dygraph.guard():# 输入数据维度[n, c, h, w],num_channels等于cbn = batchnorm(num_channels=3)x = fluid.dygraph.to_variable(data)y = bn(x)print('input of batchnorm layer: \n {}'.format(x.numpy()))print('output of batchnorm layer: \n {}'.format(y.numpy()))# 取出data中第0通道的数据, # 使用numpy计算均值、方差及归一化的输出 a = data[:, 0, :, :] a_mean = a.mean() a_std = a.std() b = (a - a_mean) / a_std print('channel 0 of input data: \n {}'.format(a)) print('std {}, mean {}, \n output: \n {}'.format(a_mean, a_std, b))# 提示:这里通过numpy计算出来的输出 # 与batchnorm算子的结果略有差别, # 因为在batchnorm算子为了保证数值的稳定性, # 在分母里面加上了一个比较小的浮点数epsilon=1e-05
- 预测时使用batchnorm
上面介绍了在训练过程中使用batchnorm对一批样本进行归一化的方法,但如果使用同样的方法对需要预测的一批样本进行归一化,则预测结果会出现不确定性。
例如样本a、样本b作为一批样本计算均值和方差,与样本a、样本c和样本d作为一批样本计算均值和方差,得到的结果一般来说是不同的。那么样本a的预测结果就会变得不确定,这对预测过程来说是不合理的。
解决方法是在训练过程中将大量样本的均值和方差保存下来,预测时直接使用保存好的值而不再重新计算。实际上,在batchnorm的具体实现中,训练时会计算均值和方差的移动平均值。在飞桨中,默认是采用如下方式计算:
saved_μb←saved_μb×0.9 μb×(1−0.9)saved\_\mu_b \leftarrow \ saved\_\mu_b \times 0.9 \mu_b \times (1 - 0.9)saved_μb← saved_μb×0.9μb×(1−0.9)
saved_σb2←saved_σb2×0.9 σb2×(1−0.9)saved\_\sigma_b^2 \leftarrow \ saved\_\sigma_b^2 \times 0.9 \sigma_b^2 \times (1 - 0.9)saved_σb2← saved_σb2×0.9σb2×(1−0.9)
在训练过程的最开始将saved_μbsaved\_\mu_bsaved_μb和saved_σb2saved\_\sigma_b^2saved_σb2设置为0,每次输入一批新的样本,计算出μb\mu_bμb和σb2\sigma_b^2σb2,然后通过上面的公式更新saved_μbsaved\_\mu_bsaved_μb和saved_σb2saved\_\sigma_b^2saved_σb2,在训练的过程中不断的更新它们的值,并作为batchnorm层的参数保存下来。预测的时候将会加载参数saved_μbsaved\_\mu_bsaved_μb和saved_σb2saved\_\sigma_b^2saved_σb2,用他们来代替μb\mu_bμb和σb2\sigma_b^2σb2。
丢弃法(dropout)
丢弃法(dropout)是深度学习中一种常用的抑制过拟合的方法,其做法是在神经网络学习过程中,随机删除一部分神经元。训练时,随机选出一部分神经元,将其输出设置为0,这些神经元将不对外传递信号。
下图 是dropout示意图,左边是完整的神经网络,右边是应用了dropout之后的网络结构。应用dropout之后,会将标了×\times×的神经元从网络中删除,让它们不向后面的层传递信号。在学习过程中,丢弃哪些神经元是随机决定,因此模型不会过度依赖某些神经元,能一定程度上抑制过拟合。
在预测场景时,会向前传递所有神经元的信号,可能会引出一个新的问题:训练时由于部分神经元被随机丢弃了,输出数据的总大小会变小。比如:计算其l1l1l1范数会比不使用dropout时变小,但是预测时却没有丢弃神经元,这将导致训练和预测时数据的分布不一样。为了解决这个问题,飞桨支持如下两种方法:
- downgrade_in_infer
训练时以比例rrr随机丢弃一部分神经元,不向后传递它们的信号;预测时向后传递所有神经元的信号,但是将每个神经元上的数值乘以 (1−r)(1 - r)(1−r)。
- upscale_in_train
训练时以比例rrr随机丢弃一部分神经元,不向后传递它们的信号,但是将那些被保留的神经元上的数值除以 (1−r)(1 - r)(1−r);预测时向后传递所有神经元的信号,不做任何处理。
在飞桨dropout api中,paddle.fluid.layers.dropout通过dropout_implementation参数来指定用哪种方式对神经元进行操作,dropout_implementation参数的可选值是’downgrade_in_infer’或’upscale_in_train’,缺省值是’downgrade_in_infer’。
说明:
不同框架对于dropout的默认处理方式可能不同,读者可以查看api详细了解。
飞桨dropout api包含的主要参数如下:
- x (variable)- 数据类型是tensor,需要采用丢弃法进行操作的对象。
- dropout_prob (float32) - 对xxx中元素进行丢弃的概率,即输入单元设置为0的概率,该参数对元素的丢弃概率是针对于每一个元素而言而不是对所有的元素而言。举例说,假设矩阵内有12个数字,经过概率为0.5的dropout未必一定有6个零。
- is_test (bool) - 是否运行在测试阶段,由于dropout在训练和测试阶段表现不一样,通过此参数控制其表现,默认值为’false’。
- dropout_implementation (str) - 丢弃法的实现方式,有’downgrade_in_infer’和’upscale_in_train’两种,具体情况请见上面的说明,默认是’downgrade_in_infer’。
下面这段程序展示了经过dropout之后输出数据的形式。
# dropout操作 import numpy as npimport paddle import paddle.fluid as fluid# 设置随机数种子,这样可以保证每次运行结果一致 np.random.seed(100) # 创建数据[n, c, h, w],一般对应卷积层的输出 data1 = np.random.rand(2,3,3,3).astype('float32') # 创建数据[n, k],一般对应全连接层的输出 data2 = np.arange(1,13).reshape([-1, 3]).astype('float32') # 使用dropout作用在输入数据上 with fluid.dygraph.guard():x1 = fluid.dygraph.to_variable(data1)out1_1 = fluid.layers.dropout(x1, dropout_prob=0.5, is_test=false)out1_2 = fluid.layers.dropout(x1, dropout_prob=0.5, is_test=true)x2 = fluid.dygraph.to_variable(data2)out2_1 = fluid.layers.dropout(x2, dropout_prob=0.5, \dropout_implementation='upscale_in_train')out2_2 = fluid.layers.dropout(x2, dropout_prob=0.5, \dropout_implementation='upscale_in_train', is_test=true)print('x1 {}, \n out1_1 \n {}, \n out1_2 \n {}'.format(data1, out1_1.numpy(), out1_2.numpy()))print('x2 {}, \n out2_1 \n {}, \n out2_2 \n {}'.format(data2, out2_1.numpy(), out2_2.numpy()))总结
以上是尊龙凯时首页为你收集整理的计算机视觉:卷积神经网络基础的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇:
- 下一篇: