Backpropagation(反向传播),就是告诉我们用gradient descent来train一个neural network的时候该怎么做,它只是求微分的一种方法,而不是一种新的算法
Gradient Descent
gradient descent的使用方法,跟linear Regression或者是Logistic Regression是一模一样的,唯一的区别就在于当它用在neural network的时候,network parameters θ = w 1 , w 2 , … , b 1 , b 2 , … \theta=w_{1}, w_{2}, \ldots, b_{1}, b_{2}, \ldots θ=w1?,w2?,…,b1?,b2?,… 里面可能会有将近million个参数
但如何有效地把这个近百万维的vector给计算出来,这就是Backpropagation要做的事情,所以Backpropagation并不是一个和gradient descent不同的training的方法,它就是gradient descent,它只是一个比较有效率的算法,让你在计算这个gradient的vector的时候更有效率。
Chain Rule(链式法则)
反向传播
对整个neural network, 我们定义了一个loss function: L ( θ ) = ∑ n = 1 N l n ( θ ) , L(\theta)=\sum_{n=1}^{N} l^{n}(\theta), L(θ)=∑n=1N?ln(θ), 它等于所有training data的loss之和。
交叉熵定义了output y n y^n yn和target y ^ n \hat{y}^n y^?n之间的距离 l n ( θ ) l^n(\theta) ln(θ);
先考虑某一个neuron,先拿出上图中被红色三角形圈住的neuron,假设只有两个input x 1 , x 2 x_1,x_2 x1?,x2?,通过这个neuron,我们先得到 z = b + w 1 x 1 + w 2 x 2 z=b+w_1 x_1+w_2 x_2 z=b+w1?x1?+w2?x2?,然后经过activation function从neuron中output出来,作为后续neuron的input,经过复杂的过程得到最终的output y 1 , y 2 y_1,y_2 y1?,y2?
现在的问题是这样: ? l ? w \frac{\partial l}{\partial w} ?w?l?该怎么算?按照chain rule拆分成两项, ? l ? w = ? z ? w ? l ? z \frac{\partial l}{\partial w}=\frac{\partial z}{\partial w} \frac{\partial l}{\partial z} ?w?l?=?w?z??z?l?,两项分别去把它计算出来。前面一项是比较简单的,后面一项是比较复杂的
计算前面这一项 ? z ? w \frac{\partial z}{\partial w} ?w?z?的这个process,我们称之为Forward pass;
而计算后面这项 ? l ? z \frac{\partial l}{\partial z} ?z?l?的process,我们称之为Backward pass;
Forward pass
先考虑 ? z ? w \frac{\partial z}{\partial w} ?w?z?这一项,秒算出来, ? z ? w 1 = x 1 , ? z ? w 2 = x 2 \frac{\partial z}{\partial w_1}=x_1 ,\ \frac{\partial z}{\partial w_2}=x_2 ?w1??z?=x1?, ?w2??z?=x2?
规律:求 ? z ? w \frac{\partial z}{\partial w} ?w?z?,就是看w前面连接的input是什么,那微分后的 ? z ? w \frac{\partial z}{\partial w} ?w?z?值就是什么,因此只要计算出neural network里面每一个neuron的output就可以知道任意的z对w的偏微分
- 比如input layer作为neuron的输入时, w 1 w_1 w1?前面连接的是 x 1 x_1 x1?,所以微分值就是 x 1 x_1 x1?; w 2 w_2 w2?前面连接的是 x 2 x_2 x2?,所以微分值就是 x 2 x_2 x2?
- 比如hidden layer作为neuron的输入时,那该neuron的input就是前一层neuron的output,于是 ? z ? w \frac{\partial z}{\partial w} ?w?z?的值就是前一层的z经过activation function之后输出的值(下图中的数据是假定activation function为sigmoid function得到的)
Backward pass
再考虑 ? l ? z \frac{\partial l}{\partial z} ?z?l?这一项,它是比较复杂的,这里我们依旧假设activation function是sigmoid function
公式推导
我们的z通过activation function得到a,这个neuron的output是 a = σ ( z ) a=\sigma(z) a=σ(z),接下来这个a会乘上某一个weight w 3 w_3 w3?,再加上其它一大堆的value得到 z ′ z' z′,它是下一个neuron activation function的input,然后a又会乘上另一个weight w 4 w_4 w4?,再加上其它一堆value得到 z ′ ′ z'' z′′,后面还会发生很多很多其他事情,不过这里我们就只先考虑下一步会发生什么事情: ? l ? z = ? a ? z ? l ? a \frac{\partial l}{\partial z}=\frac{\partial a}{\partial z} \frac{\partial l}{\partial a} ?z?l?=?z?a??a?l? 这里的 ? a ? z \frac{\partial a}{\partial z} ?z?a?实际上就是activation function的微分(在这里就是sigmoid function的微分),接下来的问题是 ? l ? a \frac{\partial l}{\partial a} ?a?l?应该长什么样子呢?a会影响 z ′ z' z′和 z ′ ′ z'' z′′,而 z ′ z' z′和 z ′ ′ z'' z′′会影响 l l l,所以通过chain rule可以得到 ? l ? a = ? z ′ ? a ? l ? z ′ + ? z ′ ′ ? a ? l ? z ′ ′ \frac{\partial l}{\partial a}=\frac{\partial z'}{\partial a} \frac{\partial l}{\partial z'}+\frac{\partial z''}{\partial a} \frac{\partial l}{\partial z''} ?a?l?=?a?z′??z′?l?+?a?z′′??z′′?l? 这里的 ? z ′ ? a = w 3 \frac{\partial z'}{\partial a}=w_3 ?a?z′?=w3?, ? z ′ ′ ? a = w 4 \frac{\partial z''}{\partial a}=w_4 ?a?z′′?=w4?,那 ? l ? z ′ \frac{\partial l}{\partial z'} ?z′?l?和 ? l ? z ′ ′ \frac{\partial l}{\partial z''} ?z′′?l?又该怎么算呢?这里先假设我们已经通过某种方法把 ? l ? z ′ \frac{\partial l}{\partial z'} ?z′?l?和 ? l ? z ′ ′ \frac{\partial l}{\partial z''} ?z′′?l?这两项给算出来了,然后回过头去就可以把 ? l ? z \frac{\partial l}{\partial z} ?z?l?给轻易地算出来 ? l ? z = ? a ? z ? l ? a = σ ′ ( z ) [ w 3 ? l ? z ′ + w 4 ? l ? z ′ ′ ] \frac{\partial l}{\partial z}=\frac{\partial a}{\partial z} \frac{\partial l}{\partial a}=\sigma'(z)[w_3 \frac{\partial l}{\partial z'}+w_4 \frac{\partial l}{\partial z''}] ?z?l?=?z?a??a?l?=σ′(z)[w3??z′?l?+w4??z′′?l?]
另一个观点
这个式子还是蛮简单的,然后,我们可以从另外一个观点来看待这个式子
你可以想象说,现在有另外一个neuron,它不在我们原来的network里面,在下图中它被画成三角形,这个neuron的input就是 ? l ? z ′ \frac{\partial l}{\partial z'} ?z′?l?和 ? l ? z ′ ′ \frac{\partial l}{\partial z''} ?z′′?l?,那input ? l ? z ′ \frac{\partial l}{\partial z'} ?z′?l?就乘上 w 3 w_3 w3?,input ? l ? z ′ ′ \frac{\partial l}{\partial z''} ?z′′?l?就乘上 w 4 w_4 w4?,它们两个相加再乘上activation function的微分 σ ′ ( z ) \sigma'(z) σ′(z),就可以得到output ? l ? z \frac{\partial l}{\partial z} ?z?l?
这张图描述了一个新的“neuron”,它的含义跟图下方的表达式是一模一样的,作这张图的目的是为了方便理解
值得注意的是,这里的 σ ′ ( z ) \sigma'(z) σ′(z)是一个constant常数,它并不是一个function,因为z其实在计算forward pass的时候就已经被决定好了,z是一个固定的值
所以这个neuron其实跟我们之前看到的sigmoid function是不一样的,它并不是把input通过一个non-linear进行转换,而是直接把input乘上一个constant σ ′ ( z ) \sigma'(z) σ′(z),就得到了output,因此这个neuron被画成三角形,代表它跟我们之前看到的圆形的neuron的运作方式是不一样的,它是直接乘上一个constant(这里的三角形有点像电路里的运算放大器op-amp,它也是乘上一个constant)
两种情况
ok,现在我们最后需要解决的问题是,怎么计算 ? l ? z ′ \frac{\partial l}{\partial z'} ?z′?l?和 ? l ? z ′ ′ \frac{\partial l}{\partial z''} ?z′′?l?这两项,假设有两个不同的case:
case 1:Output Layer
假设蓝色的这个neuron已经是hidden layer的最后一层了,也就是说连接在 z ′ z' z′和 z ′ ′ z'' z′′后的这两个红色的neuron已经是output layer,它的output就已经是整个network的output了,这个时候计算就比较简单 ? l ? z ′ = ? y 1 ? z ′ ? l ? y 1 \frac{\partial l}{\partial z'}=\frac{\partial y_1}{\partial z'} \frac{\partial l}{\partial y_1} ?z′?l?=?z′?y1???y1??l? 其中 ? y 1 ? z ′ \frac{\partial y_1}{\partial z'} ?z′?y1??就是output layer的activation function (softmax) 对 z ′ z' z′的偏微分
而 ? l ? y 1 \frac{\partial l}{\partial y_1} ?y1??l?就是loss对 y 1 y_1 y1?的偏微分,它取决于你的loss function是怎么定义的,也就是你的output和target之间是怎么evaluate的,你可以用cross entropy,也可以用mean square error,用不同的定义, ? l ? y 1 \frac{\partial l}{\partial y_1} ?y1??l?的值就不一样
这个时候,你就已经可以把 l l l对 w 1 w_1 w1?和 w 2 w_2 w2?的偏微分 ? l ? w 1 \frac{\partial l}{\partial w_1} ?w1??l?、 ? l ? w 2 \frac{\partial l}{\partial w_2} ?w2??l?算出来了
Case 2:Not Output Layer
假设现在红色的neuron并不是整个network的output,那 z ′ z' z′经过红色neuron的activation function得到 a ′ a' a′,然后output a ′ a' a′和 w 5 w_5 w5?、 w 6 w_6 w6?相乘并加上一堆其他东西分别得到 z a z_a za?和 z b z_b zb?,如下图所示
根据之前的推导证明类比,如果知道 ? l ? z a \frac{\partial l}{\partial z_a} ?za??l?和 ? l ? z b \frac{\partial l}{\partial z_b} ?zb??l?,我们就可以计算 ? l ? z ′ \frac{\partial l}{\partial z'} ?z′?l?,如下图所示,借助运算放大器的辅助理解,将 ? l ? z a \frac{\partial l}{\partial z_a} ?za??l?乘上 w 5 w_5 w5?和 ? l ? z b \frac{\partial l}{\partial z_b} ?zb??l?乘上 w 6 w_6 w6?的值加起来再通过op-amp,乘上放大系数 σ ′ ( z ′ ) \sigma'(z') σ′(z′),就可以得到output ? l ? z ′ \frac{\partial l}{\partial z'} ?z′?l? ? l ? z ′ = σ ′ ( z ′ ) [ w 5 ? l ? z a + w 6 ? l ? z b ] \frac{\partial l}{\partial z'}=\sigma'(z')[w_5 \frac{\partial l}{\partial z_a} + w_6 \frac{\partial l}{\partial z_b}] ?z′?l?=σ′(z′)[w5??za??l?+w6??zb??l?]
知道 z ′ z' z′和 z ′ ′ z'' z′′就可以知道 z z z,知道 z a z_a za?和 z b z_b zb?就可以知道 z ′ z' z′,… ,现在这个过程就可以反复进行下去,直到找到output layer,我们可以算出确切的值,然后再一层一层反推回去
你可能会想说,这个方法听起来挺让人崩溃的,每次要算一个微分的值,都要一路往后走,一直走到network的output,如果写成表达式的话,一层一层往后展开,感觉会是一个很可怕的式子,但是!实际上并不是这个样子做的
你只要换一个方向,从output layer的 ? l ? z \frac{\partial l}{\partial z} ?z?l?开始算,你就会发现它的运算量跟原来的network的Feedforward path其实是一样的
假设现在有6个neuron,每一个neuron的activation function的input分别是 z 1 z_1 z1?、 z 2 z_2 z2?、 z 3 z_3 z3?、 z 4 z_4 z4?、 z 5 z_5 z5?、 z 6 z_6 z6?,我们要计算 l l l对这些 z z z的偏微分,按照原来的思路,我们想要知道 z 1 z_1 z1?的偏微分,就要去算 z 3 z_3 z3?和 z 4 z_4 z4?的偏微分,想要知道 z 3 z_3 z3?和 z 4 z_4 z4?的偏微分,就又要去计算两遍 z 5 z_5 z5?和 z 6 z_6 z6?的偏微分,因此如果我们是从 z 1 z_1 z1?、 z 2 z_2 z2?的偏微分开始算,那就没有效率
但是,如果你反过来先去计算 z 5 z_5 z5?和 z 6 z_6 z6?的偏微分的话,这个process,就突然之间变得有效率起来了,我们先去计算 ? l ? z 5 \frac{\partial l}{\partial z_5} ?z5??l?和 ? l ? z 6 \frac{\partial l}{\partial z_6} ?z6??l?,然后就可以算出 ? l ? z 3 \frac{\partial l}{\partial z_3} ?z3??l?和 ? l ? z 4 \frac{\partial l}{\partial z_4} ?z4??l?,最后就可以算出 ? l ? z 1 \frac{\partial l}{\partial z_1} ?z1??l?和 ? l ? z 2 \frac{\partial l}{\partial z_2} ?z2??l?,而这一整个过程,就可以转化为op-amp运算放大器的那张图
这里每一个op-amp的放大系数就是 σ ′ ( z 1 ) \sigma'(z_1) σ′(z1?)、 σ ′ ( z 2 ) \sigma'(z_2) σ′(z2?)、 σ ′ ( z 3 ) \sigma'(z_3) σ′(z3?)、 σ ′ ( z 4 ) \sigma'(z_4) σ′(z4?),所以整一个流程就是,先快速地计算出 ? l ? z 5 \frac{\partial l}{\partial z_5} ?z5??l?和 ? l ? z 6 \frac{\partial l}{\partial z_6} ?z6??l?,然后再把这两个偏微分的值乘上路径上的weight汇集到neuron上面,再通过op-amp的放大,就可以得到 ? l ? z 3 \frac{\partial l}{\partial z_3} ?z3??l?和 ? l ? z 4 \frac{\partial l}{\partial z_4} ?z4??l?这两个偏微分的值,再让它们乘上一些weight,并且通过一个op-amp,就得到 ? l ? z 1 \frac{\partial l}{\partial z_1} ?z1??l?和 ? l ? z 2 \frac{\partial l}{\partial z_2} ?z2??l?这两个偏微分的值,这样就计算完了,这个步骤,就叫做Backward pass
在做Backward pass的时候,实际上的做法就是建另外一个neural network,本来正向neural network里面的activation function都是sigmoid function,而现在计算Backward pass的时候,就是建一个反向的neural network,它的activation function就是一个运算放大器op-amp,每一个反向neuron的input是loss l l l对后面一层layer的 z z z的偏微分 ? l ? z \frac{\partial l}{\partial z} ?z?l?,output则是loss l l l对这个neuron的 z z z的偏微分 ? l ? z \frac{\partial l}{\partial z} ?z?l?,做Backward pass就是通过这样一个反向neural network的运算,把loss l l l对每一个neuron的 z z z的偏微分 ? l ? z \frac{\partial l}{\partial z} ?z?l?都给算出来
注:如果是正向做Backward pass的话,实际上每次计算一个 ? l ? z \frac{\partial l}{\partial z} ?z?l?,就需要把该neuron后面所有的 ? l ? z \frac{\partial l}{\partial z} ?z?l?都给计算一遍,会造成很多不必要的重复运算,如果写成code的形式,就相当于调用了很多次重复的函数;而如果是反向做Backward pass,实际上就是把这些调用函数的过程都变成调用“值”的过程,因此可以直接计算出结果,而不需要占用过多的堆栈空间
Summary
Forward pass,每个neuron的activation function的output,就是它所连接的weight的 ? z ? w \frac{\partial z}{\partial w} ?w?z?
Backward pass,建一个与原来方向相反的neural network,它的三角形neuron的output就是 ? l ? z \frac{\partial l}{\partial z} ?z?l?
把通过forward pass得到的 ? z ? w \frac{\partial z}{\partial w} ?w?z?和通过backward pass得到的 ? l ? z \frac{\partial l}{\partial z} ?z?l?乘起来就可以得到 l l l对 w w w的偏微分 ? l ? w \frac{\partial l}{\partial w} ?w?l? ? l ? w = ? z ? w ∣ f o r w a r d p a s s ? ? l ? z ∣ b a c k w a r d p a s s \frac{\partial l}{\partial w} = \frac{\partial z}{\partial w}|{forward\ pass} \cdot \frac{\partial l}{\partial z}|{backward \ pass} ?w?l?=?w?z?∣forward pass??z?l?∣backward pass