当前位置:
代码迷
>>
综合
>> 小白都能看懂的softmax loss
详细解决方案
小白都能看懂的softmax loss
热度:
25
发布时间:
2023-12-08 18:08:18.0
1. 前向传播
一张图像经过层层计算,在softmax之前得到z1,z2,…
经过softmax变成,pj是softmax的输出
p 1 = e z 1 / ( e z 1 + e z 2 + . . . ) , p 2 = e z 2 / ( e z 1 + e z 2 + . . . ) , . . . . . . p1=e^{z1}/(e^{z1}+e^{z2}+...), p2=e^{z2}/(e^{z1}+e^{z2}+...), ......
p
1
=
e
z
1
/
(
e
z
1
+
e
z
2
+
.
.
.
)
,
p
2
=
e
z
2
/
(
e
z
1
+
e
z
2
+
.
.
.
)
,
.
.
.
.
.
.
softmax常常使用交叉熵计算loss,如下图
2. 反向传播
groundtruth对应的zj和非groundtruth的zj分开计算
groundtruth对应的zj
非groundtruth对应的zj
所以groundtruth对应的zj反向传播的梯度是pj-1,非groundtruth对应的zj反向传播的梯度是pj
3.指数的上溢和对数的下溢
z1,z2,…中出现1000以上很常见,此时指数就会向上溢出。所以求指数前先减去他们的最大值,结果是一样的,本质就是分子分母同时除以一个常数
求交叉熵损失的时候,softmax的值非常小,比如10的-1000次也是可能的,此时就出现向下溢出。所以将公式变换以下:
查看全文
相关解决方案
Chart FX for WPF中创造Win/Loss 图表
机器学习方法(5):逻辑回归Logistic Regression,Softmax Regression
Logistic and Softmax Regression (逻辑回归跟Softmax回归)
第一章.Classification -- 02.Loss Functions for Classification翻译
TensorFlow 01——ch01-softmax regression做手写数字识别
3 Computer Networking notes: overview - packet delay and loss (数据包的延迟和丢失)
nn.Softmax()与nn.LogSoftmax()与F.softmax()
pytorch:自定义损失函数total variation loss
详解ReID的各部分组成及Trick——损失函数(Loss)
tensorflow object_detection api ERROR:tensorflow:Model diverged with loss = NaN.
SoftMax推导,SoftMax-Loss推导
tf.nn.softmax(x, axis)里axis起什么作用?
从loss的硬截断、软化到Focal Loss
plt画图(sigmoid、relu、softmax)
深度学习基础(一):sigmoid/softmax/cross Entropy
loss nan解决办法
专业英语(3、Loss Function)
softmax loss 系列记录
Slim :Cannot assign a device for operation 'InceptionV3/Predictions/Softmax'错误
论文阅读:Making Deep Neural Networks Robust to Label Noise: a Loss Correction Approach(2017CVPR,前后向校正)
机器学习速成课程笔记9:降低损失 (Reducing Loss)-Playground 练习
机器学习速成课程笔记8:降低损失 (Reducing Loss)-随机梯度下降法
机器学习速成课程笔记7:降低损失 (Reducing Loss)-优化学习速率
机器学习速成课程笔记6:降低损失 (Reducing Loss)-学习速率
机器学习速成课程笔记5:降低损失 (Reducing Loss)-梯度下降法
机器学习速成课程笔记4:降低损失 (Reducing Loss)
Focal loss 参考理解
(五)Softmax 回归
单层神经网络实现-pytorch-softmax-sigmoid使用
python实现softmax函数、sigmoid函数、 softmax 交叉熵loss函数、sigmoid 交叉熵loss函数