这节讲的实质上是 使用Gradient Descent实现Neural Network时是真么做的。
Gradient Descent的过程之前的帖子已写,这里不再赘余。
但是这种逐个求偏微分的方法效率太低了,试想一下如果一个Neural Network有七八层,每层1000个neuron,那就有上百万个参数,计算起来时相当困难且费时的。
Backpropagation并不是区别于Gradient Descent的一种训练方法,它只是一种有效的训练Gradient Descent的算法。
我们定义一个Loss Function,这个Cn是此刻的真实值于目标之间的差距。然后对Loss求偏微分。
我们摘一个neuron出来考虑。
Compute ??/?? for all parameters:Forward pass(这个非常容易)
Compute ??/?? for all activation function inputs z:Backward pass
先做一步拆解
下面这个图很关键的!!!
要想求z3的,必须先求z5、z6的;同样想求z4的,也必须先求z5、z6的。
这样,我们从后向前算,先算z5、z6,然后我们就很轻松得到z3、z4的,然后相应的再逐层向前计算。
最后,总结一下: