卷积神经网络通透阐释[转]

博主： AIHGF
发布时间：2022 年 01 月 09 日
2477 次浏览
暂无评论
5503字数
分类：网络模型

原文：从此明白了卷积神经网络（CNN）- 2021.11.05
出处：SimpleAI - 微信公众号
图示很赞，好文，记录，学习备忘.

1. 引子-边缘检测

看一个最简单的例子：“边界检测（edge detection）”，假设有这样的一张图片，大小8×8：

图片中的数字代表该位置的像素值，像素值越大，颜色越亮，所以为了示意，把右边小像素的地方画成深色。图的中间两个颜色的分界线就是要检测的边界。

怎么检测这个边界呢？可以设计这样的一个 滤波器（filter，也称为kernel），大小3×3：

然后，用这个filter，往图片上“盖”，覆盖一块跟filter一样大的区域之后，对应元素相乘，然后求和。计算一个区域之后，就向其他区域挪动，接着计算，直到把原图片的每一个角落都覆盖到了为止。这个过程就是 “卷积”。
（不用管卷积在数学上到底是指什么运算，只用知道在CNN中是怎么计算的。）
这里的“挪动”，就涉及到一个步长了，假如步长是1，那么覆盖了一个地方之后，就挪一格，容易知道，总共可以覆盖6×6个不同的区域。

那么，将这6×6个区域的卷积结果，拼成一个矩阵：

可以发现这个图片，中间颜色浅，两边颜色深，这说明原图片中间的边界，在这里被反映出来了!

从上面这个例子中发现，可以通过设计特定的filter，让它去跟图片做卷积，就可以识别出图片中的某些特征，比如边界。
上面的例子是检测竖直边界，也可以设计出检测水平边界的，只用把刚刚的filter旋转90°即可。对于其他的特征，理论上只要经过精细的设计，总是可以设计出合适的filter的。

CNN（convolutional neural network），主要就是通过一个个的filter，不断地提取特征，从局部的特征到总体的特征，从而进行图像识别等等功能。

那么问题来了，怎么可能去设计这么多各种各样的filter呀？首先，都不一定清楚对于一大推图片，需要识别哪些特征；其次，就算知道了有哪些特征，想真的去设计出对应的filter，恐怕也并非易事，要知道，特征的数量可能是成千上万的。

其实学过神经网络之后，就知道，这些filter，根本就不用去设计，每个filter中的各个数字，不就是参数吗，可以通过大量的数据，来 让机器自己去“学习”这些参数嘛。这，就是CNN的原理。

2. CNN的基本概念

2.1. Padding

从上面的引子中可知，原图像在经过filter卷积之后，变小了，从(8,8)变成了(6,6)。假设再进行一次卷积，那大小就变成了(4,4)了。

这样有啥问题呢？ 主要有两个问题：

[1] - 每次卷积，图像都缩小，这样卷不了几次就没了；

[2] - 相比于图片中间的点，图片边缘的点在卷积中被计算的次数很少。这样的话，边缘的信息就易于丢失。

为了解决这个问题，可以采用padding的方法。每次卷积前，先给图片周围都补一圈空白，让卷积之后图片跟原来一样大，同时，原来的边缘也被计算了更多次。

比如，把(8,8)的图片给补成(10,10)，那么经过(3,3)的filter之后，就是(8,8)，没有变。

把上面这种“让卷积之后的大小不变”的padding方式，称为 “Same”方式，

把不经过任何填白的，称为 “Valid”方式。这个是在使用一些框架的时候，需要设置的超参数。

2.2. Stride

前面所介绍的卷积，都是默认步长是1，但实际上，还可以设置步长为其他的值。
比如，对于(8,8)的输入，用(3,3)的filter，

如果stride=1，则输出为(6,6);

如果stride=2，则输出为(3,3);（这里例子举得不大好，除不断就向下取整）

2.3. Pooling

Pooling，是为了提取一定区域的主要特征，并减少参数数量，防止模型过拟合。

比如下面的MaxPooling，采用了一个2×2的窗口，并取stride=2：

除了MaxPooling,还有AveragePooling，顾名思义就是取那个区域的平均值。

2.4. 对多通道（channels）图片的卷积

这个需要单独提一下。彩色图像，一般都是RGB三个通道（channel）的，因此输入数据的维度一般有三个：（长，宽，通道）。比如一个28×28的RGB图片，维度就是(28,28,3)。

前面的引子中，输入图片是2维的(8,8)，filter是(3,3)，输出也是2维的(6,6)。

如果输入图片是三维的呢（即增多了一个channels），比如是(8,8,3)，这个时候，filter的维度就要变成(3,3,3)了，它的 最后一维要跟输入的channel维度一致。

这个时候的卷积，是三个channel的所有元素对应相乘后求和，也就是之前是9个乘积的和，现在是27个乘积的和。因此，输出的维度并不会变化。还是(6,6)。

但是，一般情况下，会使用多了filters同时卷积，比如，如果同时使用4个filter的话，那么输出的维度则会变为(6,6,4)。

如下图，来展示上面的过程：

图中的输入图像是(8,8,3)，filter有4个，大小均为(3,3,3)，得到的输出为(6,6,4)。

这个图画的真清晰！而且给出了3和4这个两个关键数字是怎么来的。

其实，如果套用前面学过的神经网络的符号来看待CNN的话，

输入图片就是X，shape=(8,8,3);
4个filters其实就是第一层神经网络的参数W1,，shape=(3,3,3,4),这个4是指有4个filters;
输出是Z1，shape=(6,6,4);
后面其实还应该有一个激活函数，比如relu，经过激活后，Z1变为A1，shape=(6,6,4);

所以，在前面的图中，加一个激活函数，给对应的部分标上符号，就是这样的：

3. CNN 的结构组成

已经知道了卷积（convolution）、池化（pooling）以及填白（padding）是怎么进行的，接下来就来看看CNN的整体结构，它包含了3种层（layer）：

1. Convolutional layer（卷积层—CONV）
由滤波器filters和激活函数构成。
一般要设置的超参数包括filters的数量、大小、步长，以及padding是“valid”还是“same”。当然，还包括选择什么激活函数。

2. Pooling layer （池化层—POOL）
这里里面没有参数需要学习，因为里面的参数都是设置好了，要么是Maxpooling，要么是Averagepooling。
需要指定的超参数，包括是Max还是average，窗口大小以及步长。
通常使用的比较多的是Maxpooling, 而且一般取大小为(2,2)步长为2的filter，这样，经过pooling之后，输入的长宽都会缩小2倍，channels不变。

3. Fully Connected layer（全连接层—FC）
神经网络中的那种最普通的层，就是一排神经元。因为这一层是每一个单元都和前一层的每一个单元相连接，所以称之为“全连接”。
这里要指定的超参数，无非就是神经元的数量，以及激活函数。

接下来，随便看一个CNN的模样，来获取对CNN的一些感性认识：

这个CNN的结构可以用：X→CONV(relu)→MAXPOOL→CONV(relu)→FC(relu)→FC(softmax)→Y来表示。

这里需要说明的是，在经过数次卷积和池化之后，最后会先将多维的数据进行“扁平化”，也就是把 (height,width,channel)的数据压缩成长度为 height × width × channel 的一维数组，然后再与 FC层连接，这之后就跟普通的神经网络无异了。

可以从图中看到，随着网络的深入，图像（严格来说中间的那些不能叫图像了，但是为了方便，还是这样说吧）越来越小，但是channels却越来越大了。在图中的表示就是长方体面对径向面积越来越小，但是长度却越来越长了。

4. 卷积神经网络 VS. 传统神经网络

其实现在回过头来看，CNN跟之前学习的神经网络，也没有很大的差别。

传统的神经网络，其实就是多个FC层叠加起来。

CNN，无非就是把FC改成了CONV和POOL，就是把传统的由一个个神经元组成的layer，变成了由filters组成的layer。

那么，为什么要这样变？有什么好处？具体说来有两点：

4.1.参数共享机制（parameters sharing）

对比一下传统神经网络的层和由filters构成的CONV层：

假设图像是8×8大小，也就是64个像素，假设用一个有9个单元的全连接层：

那这一层需要多少个参数呢？需要 64×9 = 576个参数（先不考虑偏置项b）。因为每一个链接都需要一个权重w。

再看看 同样有9个单元的filter是怎么样的：

其实不用看就知道，有几个单元就几个参数，所以总共就9个参数！

因为，对于不同的区域，都共享同一个filter，因此就共享这同一组参数。这也是有道理的，通过前面的讲解可知，filter是用来检测特征的，那一个特征一般情况下很可能在不止一个地方出现，比如“竖直边界”，就可能在一幅图中多出出现，那么 共享同一个filter不仅是合理的，而且是应该这么做的。

由此可见，参数共享机制，让网络的参数数量大大地减少。这样，可以用较少的参数，训练出更加好的模型，典型的事半功倍，而且可以有效地 避免过拟合。

同样，由于filter的参数共享，即使图片进行了一定的平移操作，仍然可以识别出特征，这叫做 “平移不变性”。因此，模型就更加稳健了。

4.2. 连接的稀疏性（sparsity of connections）

由卷积的操作可知，输出图像中的任何一个单元，只跟输入图像的一部分有关系：

而传统神经网络中，由于都是全连接，所以输出的任何一个单元，都要受输入的所有的单元的影响。这样无形中会对图像的识别效果大打折扣。比较，每一个区域都有自己的专属特征，不希望它受到其他区域的影响。

正是由于上面这两大优势，使得CNN超越了传统的NN，开启了神经网络的新时代。

最后修改：2022 年 01 月 12 日

如果觉得我的文章对你有用，请随意赞赏

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

卷积神经网络通透阐释[转]

AIHGF • 2022 年 01 月 09 日

<blockquote>原文：<a class="no-external-link" href="https://mp.weixin.qq.com/s?__biz=MzI1MTIzMzI2MA==&mid=2650577780&idx=2&sn=4614f8c5b028027d5e0339878b4fb0e2&chksm=f1fe2df7c689a4e1ed88e028356f8fd8bb8a99e7149dc6e4cbc0c4b60e05b31a681fb1752c22&scene=21#wechat_redirect" target="_blank">从此明白了卷积神经网络（CNN）- 2021.11.05</a>出处：SimpleAI - 微信公众号图示很赞，好文，记录，学习备忘.</blockquote><h2>1. 引子-边缘检测</h2>看一个最简单的例子：“边界检测（edge detection）”，假设有这样的一张图片，大小8×8：<img src="https://www.aiuai.cn/uploads/2201/a3352d02e94e6be4.png" alt="" title="" style="">图片中的数字代表该位置的像素值，像素值越大，颜色越亮，所以为了示意，把右边小像素的地方画成深色。图的中间两个颜色的分界线就是要检测的边界。怎么检测这个边界呢？可以设计这样的一个 滤波器（filter，也称为kernel），大小3×3：<img src="https://www.aiuai.cn/uploads/2201/113b33998a84708a.png" alt="" title="" style="">然后，用这个filter，往图片上“盖”，覆盖一块跟filter一样大的区域之后，对应元素相乘，然后求和。计算一个区域之后，就向其他区域挪动，接着计算，直到把原图片的每一个角落都覆盖到了为止。这个过程就是 “卷积”。 （不用管卷积在数学上到底是指什么运算，只用知道在CNN中是怎么计算的。） 这里的“挪动”，就涉及到一个步长了，假如步长是1，那么覆盖了一个地方之后，就挪一格，容易知道，总共可以覆盖6×6个不同的区域。那么，将这6×6个区域的卷积结果，拼成一个矩阵：<img src="https://www.aiuai.cn/uploads/2201/9669af9030668413.png" alt="" title="" style="">可以发现这个图片，中间颜色浅，两边颜色深，这说明原图片中间的边界，在这里被反映出来了!从上面这个例子中发现，可以通过设计特定的filter，让它去跟图片做卷积，就可以识别出图片中的某些特征，比如边界。 上面的例子是检测竖直边界，也可以设计出检测水平边界的，只用把刚刚的filter旋转90°即可。对于其他的特征，理论上只要经过精细的设计，总是可以设计出合适的filter的。CNN（convolutional neural network），主要就是通过一个个的filter，不断地提取特征，从局部的特征到总体的特征，从而进行图像识别等等功能。那么问题来了，怎么可能去设计这么多各种各样的filter呀？首先，都不一定清楚对于一大推图片，需要识别哪些特征；其次，就算知道了有哪些特征，想真的去设计出对应的filter，恐怕也并非易事，要知道，特征的数量可能是成千上万的。其实学过神经网络之后，就知道，这些filter，根本就不用去设计，每个filter中的各个数字，不就是参数吗，可以通过大量的数据，来 让机器自己去“学习”这些参数嘛。这，就是CNN的原理。<h2>2. CNN的基本概念</h2><h3>2.1. Padding</h3>从上面的引子中可知，原图像在经过filter卷积之后，变小了，从(8,8)变成了(6,6)。假设再进行一次卷积，那大小就变成了(4,4)了。这样有啥问题呢？ 主要有两个问题：[1] - 每次卷积，图像都缩小，这样卷不了几次就没了；[2] - 相比于图片中间的点，图片边缘的点在卷积中被计算的次数很少。这样的话，边缘的信息就易于丢失。为了解决这个问题，可以采用padding的方法。每次卷积前，先给图片周围都补一圈空白，让卷积之后图片跟原来一样大，同时，原来的边缘也被计算了更多次。<img src="https://www.aiuai.cn/uploads/2201/fab725b193f0261d.png" alt="" title="" style="">比如，把(8,8)的图片给补成(10,10)，那么经过(3,3)的filter之后，就是(8,8)，没有变。把上面这种“让卷积之后的大小不变”的padding方式，称为 “Same”方式，把不经过任何填白的，称为 “Valid”方式。这个是在使用一些框架的时候，需要设置的超参数。<h3>2.2. Stride</h3>前面所介绍的卷积，都是默认步长是1，但实际上，还可以设置步长为其他的值。 比如，对于(8,8)的输入，用(3,3)的filter，如果stride=1，则输出为(6,6);如果stride=2，则输出为(3,3);（这里例子举得不大好，除不断就向下取整）<h3>2.3. Pooling</h3>Pooling，是为了提取一定区域的主要特征，并减少参数数量，防止模型过拟合。比如下面的MaxPooling，采用了一个2×2的窗口，并取stride=2：<img src="https://www.aiuai.cn/uploads/2201/ce51a0147e9ff2c9.png" alt="" title="" style="">除了MaxPooling,还有AveragePooling，顾名思义就是取那个区域的平均值。<h3>2.4. 对多通道（channels）图片的卷积</h3>这个需要单独提一下。彩色图像，一般都是RGB三个通道（channel）的，因此输入数据的维度一般有三个：（长，宽，通道）。 比如一个28×28的RGB图片，维度就是(28,28,3)。前面的引子中，输入图片是2维的(8,8)，filter是(3,3)，输出也是2维的(6,6)。如果输入图片是三维的呢（即增多了一个channels），比如是(8,8,3)，这个时候，filter的维度就要变成(3,3,3)了，它的 最后一维要跟输入的channel维度一致。这个时候的卷积，是三个channel的所有元素对应相乘后求和，也就是之前是9个乘积的和，现在是27个乘积的和。因此，输出的维度并不会变化。还是(6,6)。但是，一般情况下，会使用多了filters同时卷积，比如，如果同时使用4个filter的话，那么输出的维度则会变为(6,6,4)。如下图，来展示上面的过程：<img src="https://www.aiuai.cn/uploads/2201/a5b9e8e633503860.png" alt="" title="" style="">图中的输入图像是(8,8,3)，filter有4个，大小均为(3,3,3)，得到的输出为(6,6,4)。<blockquote>这个图画的真清晰！而且给出了3和4这个两个关键数字是怎么来的。</blockquote>其实，如果套用前面学过的神经网络的符号来看待CNN的话，<ul><li>输入图片就是X，shape=(8,8,3);</li><li>4个filters其实就是第一层神经网络的参数W1,，shape=(3,3,3,4),这个4是指有4个filters;</li><li>输出是Z1，shape=(6,6,4);</li><li>后面其实还应该有一个激活函数，比如relu，经过激活后，Z1变为A1，shape=(6,6,4);</li></ul>所以，在前面的图中，加一个激活函数，给对应的部分标上符号，就是这样的：<img src="https://www.aiuai.cn/uploads/2201/e73c557556dc623a.png" alt="" title="" style=""><h2>3. CNN 的结构组成</h2>已经知道了卷积（convolution）、池化（pooling）以及填白（padding）是怎么进行的，接下来就来看看CNN的整体结构，它包含了3种层（layer）：1. Convolutional layer（卷积层—CONV） 由滤波器filters和激活函数构成。 一般要设置的超参数包括filters的数量、大小、步长，以及padding是“valid”还是“same”。当然，还包括选择什么激活函数。2. Pooling layer （池化层—POOL） 这里里面没有参数需要学习，因为里面的参数都是设置好了，要么是Maxpooling，要么是Averagepooling。 需要指定的超参数，包括是Max还是average，窗口大小以及步长。 通常使用的比较多的是Maxpooling, 而且一般取大小为(2,2)步长为2的filter，这样，经过pooling之后，输入的长宽都会缩小2倍，channels不变。3. Fully Connected layer（全连接层—FC） 神经网络中的那种最普通的层，就是一排神经元。因为这一层是每一个单元都和前一层的每一个单元相连接，所以称之为“全连接”。 这里要指定的超参数，无非就是神经元的数量，以及激活函数。接下来，随便看一个CNN的模样，来获取对CNN的一些感性认识：<img src="https://www.aiuai.cn/uploads/2201/da216cab0f6ab134.png" alt="" title="" style="">这个CNN的结构可以用：X→CONV(relu)→MAXPOOL→CONV(relu)→FC(relu)→FC(softmax)→Y来表示。这里需要说明的是，在经过数次卷积和池化之后，最后会先将多维的数据进行“扁平化”，也就是把 (height,width,channel)的数据压缩成长度为 height × width × channel 的一维数组，然后再与 FC层连接，这之后就跟普通的神经网络无异了。可以从图中看到，随着网络的深入，图像（严格来说中间的那些不能叫图像了，但是为了方便，还是这样说吧）越来越小，但是channels却越来越大了。在图中的表示就是长方体面对径向面积越来越小，但是长度却越来越长了。<h2>4. 卷积神经网络 VS. 传统神经网络</h2>其实现在回过头来看，CNN跟之前学习的神经网络，也没有很大的差别。传统的神经网络，其实就是多个FC层叠加起来。CNN，无非就是把FC改成了CONV和POOL，就是把传统的由一个个神经元组成的layer，变成了由filters组成的layer。那么，为什么要这样变？有什么好处？具体说来有两点：<h3>4.1.参数共享机制（parameters sharing）</h3>对比一下传统神经网络的层和由filters构成的CONV层：假设图像是8×8大小，也就是64个像素，假设用一个有9个单元的全连接层：<img src="https://www.aiuai.cn/uploads/2201/9a008550e1ab3357.png" alt="" title="" style="">那这一层需要多少个参数呢？需要 64×9 = 576个参数（先不考虑偏置项b）。因为每一个链接都需要一个权重w。再看看 同样有9个单元的filter是怎么样的：<img src="https://www.aiuai.cn/uploads/2201/ea97278e57101406.png" alt="" title="" style="">其实不用看就知道，有几个单元就几个参数，所以总共就9个参数！因为，对于不同的区域，都共享同一个filter，因此就共享这同一组参数。这也是有道理的，通过前面的讲解可知，filter是用来检测特征的，那一个特征一般情况下很可能在不止一个地方出现，比如“竖直边界”，就可能在一幅图中多出出现，那么 共享同一个filter不仅是合理的，而且是应该这么做的。由此可见，参数共享机制，让网络的参数数量大大地减少。这样，可以用较少的参数，训练出更加好的模型，典型的事半功倍，而且可以有效地 避免过拟合。同样，由于filter的参数共享，即使图片进行了一定的平移操作，仍然可以识别出特征，这叫做 “平移不变性”。因此，模型就更加稳健了。<h3>4.2. 连接的稀疏性（sparsity of connections）</h3>由卷积的操作可知，输出图像中的任何一个单元，只跟输入图像的一部分有关系：<img src="https://www.aiuai.cn/uploads/2201/6b0dc1b29c9f497b.png" alt="" title="" style="">而传统神经网络中，由于都是全连接，所以输出的任何一个单元，都要受输入的所有的单元的影响。这样无形中会对图像的识别效果大打折扣。比较，每一个区域都有自己的专属特征，不希望它受到其他区域的影响。正是由于上面这两大优势，使得CNN超越了传统的NN，开启了神经网络的新时代。

1. 引子-边缘检测

2. CNN的基本概念

2.1. Padding

2.2. Stride

2.3. Pooling

2.4. 对多通道（channels）图片的卷积

3. CNN 的结构组成

4. 卷积神经网络 VS. 传统神经网络

4.1.参数共享机制（parameters sharing）

4.2. 连接的稀疏性（sparsity of connections）

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

卷积神经网络通透阐释[转]

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款