Epoch、Iteration、Batchsize | 深度学习必备概念的理解_综合

【batch size】：中文翻译为批大小（批尺寸）。

简单点说，批量大小将决定我们一次训练的样本数目。

batch_size将影响到模型的优化程度和速度。

为什么需要有Batch_Size：

batchsize的正确选择是为了在内存效率和内存容量之间寻找最佳平衡。

Batch_Size的取值：
在这里插入图片描述
全批次（蓝色）

如果数据集比较小，我们就采用全数据集。全数据集确定的方向能够更好的代表样本总体，从而更准确的朝向极值所在的方向。

注：对于大的数据集，我们不能使用全批次，因为会得到更差的结果。

迷你批次（绿色）

选择一个适中的Batch_Size值。就是说我们选定一个batch的大小后，将会以batch的大小将数据输入深度学习的网络中，然后计算这个batch的所有样本的平均损失，即代价函数是所有样本的平均。

随机（Batch_Size等于1的情况）（红色）

每次修正方向以各自样本的梯度方向修正，横冲直撞各自为政，难以达到收敛。

适当的增加Batch_Size的优点：

1.通过并行化提高内存利用率。

2.单次epoch的迭代次数减少，提高运行速度。（单次epoch=(全部训练样本/batchsize)/iteration=1）

3.适当的增加Batch_Size,梯度下降方向准确度增加，训练震动的幅度减小。（看上图便可知晓）

经验总结：

相对于正常数据集，如果Batch_Size过小，训练数据就会非常难收敛，从而导致underfitting。

增大Batch_Size,相对处理速度加快。

增大Batch_Size,所需内存容量增加（epoch的次数需要增加以达到最好的结果）

这里我们发现上面两个矛盾的问题，因为当epoch增加以后同样也会导致耗时增加从而速度下降。因此我们需要寻找最好的Batch_Size。

再次重申：Batch_Size的正确选择是为了在内存效率和内存容量之间寻找最佳平衡。

【iteration】：中文翻译为迭代。

迭代是重复反馈的动作，神经网络中我们希望通过迭代进行多次的训练以达到所需的目标或结果。

每一次迭代得到的结果都会被作为下一次迭代的初始值。

一个迭代=一个正向通过+一个反向通过。

【epoch】：中文翻译为时期（迭代轮次）。

一个时期=所有训练样本的一个正向传递和一个反向传递。

深度学习中经常看到epoch、iteration和batchsize，下面按照自己的理解说说这三个区别：

（1）batchsize：批大小。在深度学习中，一般采用SGD训练，即每次训练在训练集中取batchsize个样本训练；
（2）iteration：1个iteration等于使用batchsize个样本训练一次；
（3）epoch：1个epoch等于使用训练集中的全部样本训练一次；

举个例子，训练集有1000个样本，batchsize=10，那么：
训练完整个样本集需要：
100次iteration，1次epoch。

参考链接：http://blog.csdn.net/anshiquanshu/article/details/72630012

------------------------------------------------------华丽的分割线----------------------------------------------------

神经网络训练中，Epoch、Batch Size、和迭代傻傻的分不清？

为了理解这些术语有什么不同，我们需要了解一些关于机器学习的术语，比如梯度下降，帮助我们理解。

这里简单的总结梯度下降的含义：

梯度下降是一个在机器学习中用于寻找较佳结果（曲线的最小值）的迭代优化算法。

梯度的含义是斜率或者斜坡的倾斜度。

下降的含义是代价函数的下降。

算法是迭代的，意思是需要多次使用算法获取结果，以得到最优化结果。梯度下降的迭代性质能使欠拟合演变成获得对数据的较佳拟合。
在这里插入图片描述
梯度下降中有一个称为学习率的参量。如上图左所示，刚开始学习率较大，因此下降步长更大。随着点的下降，学习率变得越来越小，从而下降步长也变小。同时，代价函数也在减小，或者说代价在减小，有时候也称为损失函数或者损失，两者是一样的。（损失/代价的减小是一个概念）。

只有在数据很庞大的时候（在机器学习中，数据一般情况下都会很大），我们才需要使用epochs，batch size，iteration这些术语，在这种情况下，一次性将数据输入计算机是不可能的。因此，为了解决这个问题，我们需要把数据分成小块，一块一块的传递给计算机，在每一步的末端更新神经网络的权重，拟合给定的数据。

epoch

当一个完整的数据集通过了神经网络一次并且返回了一次，这个过程称为一次epoch。然而，当一个epoch对于计算机而言太庞大的时候，就需要把它分成多个小块。

为什么要使用多于一个epoch?

在神经网络中传递完整的数据集一次是不够的，而且我们需要将完整的数据集在同样的神经网络中传递多次。但请记住，我们使用的是有限的数据集，并且我们使用一个迭代过程即梯度下降来优化学习过程。如下图所示。因此仅仅更新一次或者说使用一个epoch是不够的。
在这里插入图片描述
随着epoch数量增加，神经网络中的权重的更新次数也在增加，曲线从欠拟合变得过拟合。

那么，问题来了，几个epoch才是合适的呢？

不幸的是，这个问题并没有正确的答案。对于不同的数据集，答案是不一样的。但是数据的多样性会影响合适的epoch的数量。比如，只有黑色的猫的数据集，以及有各种颜色的猫的数据集。

Batch Size

batch size将决定我们一次训练的样本数目。注意：batch size 和 number of batches是不同的。

Batch是什么？

在不能将数据一次性通过神经网络的时候，就需要将数据集分成几个batch。

Iteration

Iteration是batch需要完成一个epoch的次数。

举个例子：

有一个2000个训练样本的数据集。将2000个样本分成大小为500的batch,那么完成一个epoch需要4个iteration。

转自：https://blog.csdn.net/qq_37277944/article/details/82746635