high bias/高偏差
-
含有更多隐藏层或者隐藏单元的网络
make the Neural Network deeper
-
花费更多时间来训练网络
-
如果网络足够大,通常可以很好的拟合训练集=》扩大网络规模
increase the number of units in each hidden layer
high variance
-
正则化/add regularization
是一种非常实用的减少方差的方法,正则化时会出现偏差方差权衡问题,偏差可能略有增加,如果网络足够大,增幅通常不会太高。
regularization parameter lamda
正则化?设置得足够大,权重矩阵?被设置为接近于 0 的值,直观理解就是把多隐藏单元的权重设为 0,于是基本上消除了这些隐藏单元的许多影响。如果是这种情况,这个被大大简化了的神经网络会变成一个很小的网络,小到如同一个逻辑回归单
元,可是深度却很大,它会使这个网络从过度拟合的状态更接近高偏差状态。过大=》weights smaller =》 high bias
just fit =》ok
过小 =》 high variance
-
方差高,最好的解决办法就是采用更多数据
more training data
data augmentation
正则化
-
L2
L2正则化的目的就是为了让权重衰减到更小的值,在一定程度上减少模型过拟合的问题,权重衰减也叫L2正则化。
-
dropout
-
weight decay
a regularization technique (such as L2 regularization ) that result in gradient descent shrinking the weights on every iteration