(一)损失函数与风险函数
-
损失函数(loss function):度量模型一次预测的好坏
常用的损失函数:
(1)0-1损失函数(0-1 loss function)
L ( Y , f ( x ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) L(Y,f(x))= \begin{cases} 1, Y \neq f(X) \\ 0, Y=f(X) \end{cases} L(Y,f(x))={ 1,Y??=f(X)0,Y=f(X)?
(2)平方损失函数(quadratic loss function)
L ( Y , f ( X ) ) = ( Y ? f ( X ) ) 2 L(Y,f(X))=(Y-f(X))^2 L(Y,f(X))=(Y?f(X))2
(3)绝对损失函数(absolute loss function)
L ( Y , f ( X ) ) = ∣ Y ? f ( X ) ∣ L(Y,f(X))=|Y-f(X)| L(Y,f(X))=∣Y?f(X)∣
(4)对数损失函数(logarithmic loss function)或对数似然损失函数(loglikelihood loss function)
L ( Y , P ( Y ∣ X ) ) = ? l o g P ( Y ∣ X ) L(Y,P(Y|X))=-logP(Y|X) L(Y,P(Y∣X))=?logP(Y∣X) -
风险函数(risk function)或期望损失(expected loss):度量平均意义下模型预测的好坏
损失函数值越小,模型就越好。由于模型的输入、输出(X,Y)是随机变量,遵循联合分布 P ( X , Y ) P(X,Y) P(X,Y),所以损失函数的期望是
R e x p ( f ) = E p [ L ( Y , f ( X ) ) ] = ∫ χ × γ L ( y , f ( x ) ) P ( x , y ) d x d y R_{exp}(f)=E_p[L(Y,f(X))]=\int_{\chi\times \gamma}L(y,f(x))P(x,y)dxdy Rexp?(f)=Ep?[L(Y,f(X))]=∫χ×γ?L(y,f(x))P(x,y)dxdy
理论上模型 f ( X ) f(X) f(X)关于联合分布 P ( X , Y ) P(X,Y) P(X,Y)的平均意义下的损失。 -
监督学习 = 病态问题(ill-formed problem)
学习的目标就是选择期望风险最小的模型。由于联合分布 P ( X , Y ) P(X,Y) P(X,Y)是未知的, R e x p ( f ) R_{exp}(f) Rexp?(f)不能直接计算。实际上,如果知道联合分布 P ( X , Y ) P(X,Y) P(X,Y),可以从联合分布直接求出条件概率分布 P ( Y ∣ X ) P(Y|X) P(Y∣X),也就不需要学习了。正因为不知道联合概率分布,所以才需要进行学习。
一方面根据期望风险最小学习模型要用到联合分布,另一方面联合分布又是未知的。
给定一个训练数据集
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\} T={ (x1?,y1?),(x2?,y2?),...,(xN?,yN?)}
模型 f ( X ) f(X) f(X)关于训练数据集的平均损失称为经验风险(empirical risk)或经验损失(empirical loss),记作 R e m p R_{emp} Remp?:
R e m p ( f ) = 1 N ∑ l = 1 N L ( y i , f ( x i ) ) R_{emp}(f)=\frac{1}{N}\sum_{l=1}^NL(y_i,f(x_i)) Remp?(f)=N1?l=1∑N?L(yi?,f(xi?))
期望风险 R e x p ( f ) R_exp(f) Re?xp(f)是模型关于联合分布的期望损失,经验风险 R e m p ( f ) R_{emp}(f) Remp?(f)是模型关于训练样本集的平均损失。根据大数定律,当样本容量N趋于无穷时,经验风险 R e m p ( f ) R_{emp}(f) Remp?(f)趋于期望风险 R e x p ( f ) R_{exp}(f) Rexp?(f)。所以一个很自然的想法使用经验风险估计期望风险。但是,由于现实中训练样本数目有限,甚至很小,所以用经验风险估计期望风险常常并不理想,因此要对经验风险进行一定的矫正。
这就关系到监督学习的两个基本策略:经验风险最小化和结构风险最小化。
(二)经验风险最小化和结构风险最小化
-
经验风险最小化(empirical risk minimization,ERM):在假设空间、损失函数以及训练数据集确定的情况下,求解最优模型。
m i n f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x ) i ) min_{f\in F}\frac{1}{N}\sum_{i=1}^NL(y_i,f(x)_i) minf∈F?N1?i=1∑N?L(yi?,f(x)i?)
比如,极大似然估计法(maximum likelihood estimation):当模型是条件概率分布,损失函数是对数损失函数时,经验最小化就等价于极大似然估计。当样本容量足够大时,经验风险最小化能保证有很好的学习效果。但是当样本容量很小时,就会产生”过拟合“(over-fitting)现象。
-
结构风险最小化(structural risk minimization,SRM):为了防止过拟合而提出的策略,等价于正则化(regularization)。
R s r m ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) R_{srm}(f)=\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))+\lambda J(f) Rsrm?(f)=N1?i=1∑N?L(yi?,f(xi?))+λJ(f)
结构风险在经验风险上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term)。其中 J ( f ) J(f) J(f)为模型的复杂度,是定义在假设空间F上的泛函。模型f越复杂,复杂度 J ( f ) J(f) J(f)就越大;反之,模型f越简单,复杂度 J ( f ) J(f) J(f)就越小。这说明了复杂度表示了对复杂模型的惩罚。 λ ≥ 0 \lambda \geq 0 λ≥0是系数,用以权衡经验风险和模型复杂度。
结构风险小需要经验风险与模型复杂度同时小。而结构风险小的模型往往对训练数据以及未知的测试数据又较好的预测
比如。贝叶斯估计中的最大后验概率估计(maximum posterior probability estimation, MAP):当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计。
结构风险最小的模型是最优模型:
m i n f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) min_{f\in F}\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))+\lambda J(f) minf∈F?N1?i=1∑N?L(yi?,f(xi?))+λJ(f)
(三)监督学习问题的本质
监督学习问题就是经验风险或结构风险函数的最优化问题,这是经验或结构风险函数是最优化的目标函数。