beginning 

​ 上节我们学习了kNN分类器,主打的便是一个通俗易懂、简略易学,今日介绍一个更高级的分类方法——卷积神经网络(CNN)\color{blue}{卷积神经网络(CNN)},并学惯用CNN实现图画的分类。作为深度学习的根底,CNN可太重要了呐,在图画分类、方针检测、方针盯梢、语义切割、实例切割等领域随处可见它的身影。so,赶紧跟我一起愉快的看下去叭


CNN基本结构

​ 卷积神经网络(Convolutional Neural Network,CNN)是深度学习技能中最根底的网络结构,模拟人脑作业,具有强大的特征学习才能。CNN结构主要由两部分组成:特征提取部分和分类部分\color{blue}{特征提取部分和分类部分}。特征提取部分网络将执行一系列卷积和池化操作。分类部分运用全衔接层作为一个分类器,运用特征提取部分提取的特征为图画上的目标分配概率,即算法猜测概率。CNN结构如下所示。

深度学习入门——卷积神经网络CNN基本原理+实战

卷积层

​ 卷积层是CNN中最根底的结构,由许多卷积核(filter)\color{blue}{卷积核(filter)}组成,每个卷积核是一个针对局部区域的滤波模板,模板对应区域称之为感受野\color{blue}{感受野}。卷积核以一定步长在图画矩阵上滑动,每到一个方位,卷积核对这个方位进行卷积操作,用图画矩阵上的值乘以卷积核中对应方位的权重,求和后得到卷积后的值。下图是一个222 \times 2的卷积核以1为步长在一个333 \times 3的矩阵上卷积的进程。以蓝色输出的方位为例,00+11+23+34=19\color{blue}{00+11+23+34=19} ,卷积完结后向右移动一个步长持续卷积,直到一切方位都卷积结束。这样的结构在图画的不同区域都共享同样的卷积核参数,大大削减了网络的核算开支。

深度学习入门——卷积神经网络CNN基本原理+实战

​ 总结:卷积层中的超参数包含卷积核个数、巨细尺度、步长和填充\color{blue}{卷积核个数、巨细尺度、步长和填充}(尺度大于1111的卷积核或大于1的步长会导致卷积后的特征图小于卷积之前,所以有的网络会运用填充零元素的方法使特征图和卷积之前坚持一致),那么输出特征图的巨细可表明为:

{W2=W1−F+2ps+1H2=H1−F+2ps+1\begin{aligned} \left\{ \begin{array}{l} {W_2} = \frac{{{W_1} – F + 2 \times p}}{s} + 1\\ \\ {H_2} = \frac{{{H_1} – F + 2 \times p}}{s} + 1 \end{array} \right. \end{aligned}

​ 其中,W1H1{W_1} \times {H_1}代表输入图画的尺度,W2H2{W_2} \times {H_2}为输出图片的尺度,FF为卷积核的尺度,pp一般取值为0或1,ss为步长。

​ 看完这个公式我就要考考我们了:假如输入数据是32∗32∗332*32*3的图画,用10个5∗5∗35*5*3的filter来进行卷积操作,指定步长为1,鸿沟填充为2,那么终究输出的规模是多少腻❓❓❓(先自己动笔算算嗷)答案是:(32−5+2∗2)/1+1=32\color{blue}{(32-5+2*2)/1+1=32},输出规模为32∗32∗1032*32*10,经过卷积操作后也能够坚持特征图长度、宽度不变。

​ 为了给模型引进非线性,卷积核核算的成果一般需要输入激活函数。激活函数是神经网络结构中的重要元素,通过非线性转化实现主动特征提取,防止了线性输入输出问题,增强了网络非线性学习和处理杂乱数据集的才能。激活函数必须具有单调性和可微性才能确保偏导函数的有用性。常用的激活函数有以下几种:

1.Sigmoid函数\color{blue}{1. Sigmoid函数}

Sigmoid函数将神经网络的输出映射到[0,1]范围内的概率值,这些概率值能够用来表明分类问题中每个类别的置信程度或回归问题中的接连输出。函数的特色是它的输出值在输入值为0时达到最大值0.5,并且在输入值挨近正无穷或负无穷时趋近于1或0,使得函数能够对输入进行二元分类。可是❗该函数收敛速度缓慢,在反向传达时会有梯度消失问题。Sigmoid函数如下所示。

f(x)=11+e−x\begin{aligned} f(x) = {1 \over {1 + {e^{ – x}}}} \end{aligned}

2.Tanh函数\color{blue}{2. Tanh函数}

Tanh函数的取值范围为[-1,1],形状类似于Sigmoid函数,但Tanh函数在x等于0时,输出值为0,而Sigmoid函数在这点的输出为0.5,因而Tanh函数具有更强的非线性特征。此外,Tanh函数以原点为对称,处理了零均值问题,两端仍会存在梯度消失和幂运算耗时的弊端。表达式如下。

tanh⁡(x)=sinh⁡(x)cosh⁡(x)=ex−e−xex+e−x\begin{aligned} \tanh (x) = {{\sinh (x)} \over {\cosh (x)}} = {{{e^x} – {e^{ – x}}} \over {{e^x} + {e^{ – x}}}} \end{aligned}

3.Relu函数\color{blue}{3. Relu函数}

当输入信号小于等于0时,Relu函数的输出为0,当输入信号大于0时,输出等于输入信号自身。此函数的特色便是简略、高效、核算速度非常快。Relu函数的导数恒为1或0,能够削减核算量,加快模型的练习进程,一起能有用防止梯度消失。表达式如下。

f(x)=max(0,x)\begin{aligned} f(x)=max(0,x) \end{aligned}

4.LeakyRelu函数\color{blue}{4. Leaky Relu函数}

与Relu不同,Leaky Relu在输入值为负数时不会输出0,而是输出一个很小的值a(通常为0.01),这个小值能够协助处理Relu的逝世神经元问题,即在练习的进程中,某些神经元或许永远不会被激活,从而导致它们对整个网络的奉献为0。此外,Leaky Relu函数能够更快的收敛,在反向传达中也更加有用。Leaky Relu的表达式如下。

f(x)=max(0.01x,x)\begin{aligned} f(x)=max(0.01x,x) \end{aligned}

池化层

​ 池化也叫下采样\color{blue}{下采样},通常在接连的卷积层之间会刺进一个池化层,它的作用是逐步下降数据单元的尺度,有用削减网络中的参数数量,下降核算资源的消耗,增强模型的鲁棒性和泛化才能,一起也能有用控制过拟合。常见的池化操作包含最大池化(MaxPooling)和均匀池化(AveragePooling)\color{blue}{最大池化(Max Pooling)和均匀池化(Average Pooling)}。最大池化的原理是选取局部区域内的最大值作为输出,这样能够保留输入数据的主要特征。下图是一个222 \times 2的池化滑窗以2为步长在一个444 \times 4的矩阵上进行最大池化的进程。以输出成果中的第一个方位为例,max(12,20,8,12)=20max(12,20,8,12)=20,该区域完结池化后向右移动一个步长持续池化,直到一切方位都池化完结。若是均匀池化,就能够取均匀值而不是最大值啦

深度学习入门——卷积神经网络CNN基本原理+实战

全衔接层

​ 全衔接层的意图是将前面通过卷积、池化等操作提取到的特征图进行分类或回归。这个层次的主要使命是将高维度的特征图转化为一维向量并输出到下一个层级进行处理\color{blue}{将高维度的特征图转化为一维向量并输出到下一个层级进行处理}。与卷积层、池化层不同,全衔接层中每个神经元都与前一层中的一切神经元相连,所以叫做全衔接。

​ 该层输入的数据通常是经过展平处理的,因而能够理解为把二维或三维的特征图变成了一维向量,在进行分类或许回归剖析时,能够运用常见的多层感知器(MLP)。如此设计的好处在于,全衔接层能够学习到各种组合的特征,从而提高模型的表达才能。一起,由于每个神经元之间都有衔接,它们能够共享一些重要信息,减小模型参数的数量和核算量。

​ 看完上段话是不是有点一头雾水腻,那就举个栗子\color{blue}{举个栗子}

​ 如下图所示,999 \times 9的图画经过一系列的卷积、池化、激活函数操作后,即将进入到全衔接层中。

深度学习入门——卷积神经网络CNN基本原理+实战

​ 到了全衔接层时,全衔接层是一维数据,所以要将feature map变为一维。提问❓❓❓:它是怎么样把二维的输出,转化成一维方法的呢?\color{blue}{它是怎么样把二维的输出,转化成一维方法的呢?}假定,假定哈,在到达全衔接层时是3个222 \times 2的矩阵,此刻这12112 \times 1(平打开)向量中的每一个元素便是输入层的一个神经元,将这3个矩阵变为一维的操作如下图左所示。然后将得到的一维向量送入到网络中以概率(Softmax)\color{blue}{概率(Softmax)}的方法判别是X还对错X。粗线表明特征明显的数据,即是X的特征与不是X的特征。根据核算得到的权重矩阵,对其进行加权求和,就得到了每个分类的得分,然后根据softmax函数进行概率核算,得到X的概率为0.92,不是X的概率为0.5,终究得到输出成果,进程如下图右所示。

深度学习入门——卷积神经网络CNN基本原理+实战

CNN图画分类实战

​ 学完了卷积神经网络的基本构成之后,我们就能够愉快的运用它进行分类啦

​ 下图的(a)和(b)分别是煤炭coal和矸石gangue(夹杂在煤炭中的石块杂质)的图画,下面呢我们就用CNN对这两类图画进行二分类\color{blue}{二分类},代码非常简略,只有三个文件:model.py、train.py和predict.py\color{blue}{model.py、train.py和predict.py},相信你看懂之后会对CNN的结构及实现图片分类有更多的知道嗷

深度学习入门——卷积神经网络CNN基本原理+实战

​ 在进行使命之前呢,都毫无例外先预备数据集,若是希望效果精度嘎嘎好的话,数据集的图片原则上是越多越好。下面呢咱先上代码,代码中都有具体注释,保你一看就懂。在model.py文件中:

model.py
import torch.nn as nn
class CNN(nn.Module):
    def __init__(self):
        super(CNN, self).__init__()
        self.covn1 = nn.Sequential(       # 原始图片为(1,224,224)
            nn.Conv2d(1, 8, 5, 2),        # 卷积,卷积核55,步长2, (8,110,110)
            nn.ReLU(),                    # ReLU激活函数
            nn.MaxPool2d(2),              # 最大池化,池化核22,步长2, (8,55,55)
        )
        self.conv2 = nn.Sequential(
            nn.Conv2d(8, 16, 3, 1),        # (16,53,53)
            nn.ReLU(),
            nn.MaxPool2d(2),               # (16,26,26)
        )
        self.conv3 = nn.Sequential(
            nn.Conv2d(16, 32, 3, 1),       # (32,24,24)
            nn.ReLU(),
            nn.MaxPool2d(2),               # (32,12,12)
        )
        self.conv4 = nn.Sequential(
            nn.Conv2d(32, 64, 3, 1),       # (64,10,10)
            nn.ReLU(),
            nn.MaxPool2d(2),               # (64,5,5)
        )
        self.conv5 = nn.Sequential(
            nn.Conv2d(64, 64, 5, 1),       # (64,1,1)
        )
        self.layer1 = nn.Linear(64*1*1, 2)  # 全衔接层将它展平  2类
        # initial weights
        for m in self.modules():
            if isinstance(m, nn.Conv2d):
                nn.init.kaiming_normal_(m.weight, mode="fan_out")
                if m.bias is not None:
                    nn.init.zeros_(m.bias)
            elif isinstance(m, (nn.BatchNorm2d, nn.GroupNorm)):
                nn.init.ones_(m.weight)
                nn.init.zeros_(m.bias)
            elif isinstance(m, nn.Linear):
                nn.init.normal_(m.weight, 0, 0.01)
                nn.init.zeros_(m.bias)
#前向传达
    def forward(self, x):
        x = self.covn1(x)
        x = self.conv2(x)
        x = self.conv3(x)
        x = self.conv4(x)
        x = self.conv5(x)
        x = x.view(x.size(0), -1)
        output = self.layer1(x)
        return output

​ 在model.py中定义了一个CNN类\color{blue}{CNN类},构造了一个简略的网络结构,包含卷积、激活、池化、全衔接层。代码最后的前向传达现在不了解没关系,只需要知道这是一种练习方法就行,这一part能够下节细心讲讲。由于我们主要是学习CNN的结构,故这儿就不再给出练习和猜测\color{blue}{练习和猜测}的具体代码啦,感兴趣的同学能够访问<https://github.com/renqi1/Coal_Gangue_Classification运行完好代码嗷⛳⛳⛳

ending


​ 今日关于CNN的解说就到这儿啦,是不是收成满满呐(没有收成那就再看一遍)!假如你觉得我的分享对你有协助的话,please一键三连嗷下期见!

深度学习入门——卷积神经网络CNN基本原理+实战