当前位置: 代码迷 >> 综合 >> 模型泛化能力(泛化误差+泛化误差上界)| 15mins 入门 | 《统计学习方法》学习笔记(六)
  详细解决方案

模型泛化能力(泛化误差+泛化误差上界)| 15mins 入门 | 《统计学习方法》学习笔记(六)

热度:30   发布时间:2023-12-21 14:18:34.0

泛化能力

一、 泛化误差

学习方法的泛化能力(generalization ability):方法学习到的模型对未知数据的预测能力。

评价标准:测试误差。

但因为测试数据集是有限的,很有可能由此得到的评价结果是不可靠的。统计学习理论试图从理论上对学习方法的泛化能力进行分析。

  • 泛化误差定义:如果学习到的模型是 f ^ \hat f f^?,那么用这个模型对未知数据预测的误差即为泛化误差(generalization error)
    R e x p ( f ^ ) = E p [ L ( Y , f ^ ( X ) ) ] = ∫ χ × γ L ( y , f ^ ( x ) ) p ( x , y ) d x d y R_{exp}(\hat f)=E_p[L(Y,\hat f(X))]=\int_{\chi \times \gamma}L(y,\hat f(x))p(x,y)dxdy Rexp?(f^?)=Ep?[L(Y,f^?(X))]=χ×γ?L(y,f^?(x))p(x,y)dxdy
    实际上,泛化误差就是学习到的模型的期望风险

  • 意义:反映了学习方法的泛化能力,越小,则泛化能力越好

二、 泛化误差上界

泛化误差上界(generalization error bound):泛化误差的概率上界。

  • 通过比较两种学习方法的泛化误差上界的大小来比较它们的优势。

  • 性质:

    1. 是样本容量的函数,当样本容量增加时,泛化上界趋于0
    2. 是假设空间容量的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。
  • 二分类问题的泛化误差上界:

    已知训练数据集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\} T={ (x1?,y1?),(x2?,y2?),...,(xN?,yN?)},它是联合概率分布 P ( X , Y ) P(X,Y) P(X,Y)独立同分布产生的, X ∈ R n , Y ∈ { ? 1 , + 1 } X\in R^n, Y\in \{-1,+1\} XRn,Y{ ?1,+1}. 假设空间是函数的有限集合 F = { f 1 , f 2 , . . . , f d } F=\{f_1,f_2,...,f_d\} F={ f1?,f2?,...,fd?},d是函数个数。设f是从F中选取的函数。损失函数是0-1损失,关于f的期望风险和经验风险分别是:
    R ( f ) = E [ L ( Y , f ( X ) ) ] R ^ ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) R(f)=E[L(Y,f(X))] \\ \hat R(f) = \frac{1}{N}\sum_{i=1}^N L(y_i,f(x_i)) R(f)=E[L(Y,f(X))]R^(f)=N1?i=1N?L(yi?,f(xi?))
    经验风险最小化函数是:
    f N = a r g m i n f ∈ F R ^ ( f ) f_N = arg \space min_{f\in F}\hat R(f) fN?=arg minfF?R^(f)
    f N f_N fN?的泛化能力:
    R ( f N ) = E [ L , f N ( X ) ] R(f_N)=E[L,f_N(X)] R(fN?)=E[L,fN?(X)]
    **定理(泛化误差上界):**对二类分类问题,当假设空间是有限个函数的集合 F = { f 1 , f 2 , . . . f d } F=\{f_1,f_2,...f_d\} F={ f1?,f2?,...fd?}时,对任意一个函数 f ∈ F f\in F fF,至少以概率 1 ? δ 1-\delta 1?δ,以下不等式成立:
    R ( f ) ≤ R ^ ( f ) + ? ( d , N , δ ) (1) R(f) \leq \hat R(f) + \epsilon(d,N,\delta) \tag{1} R(f)R^(f)+?(d,N,δ)(1)
    其中
    ? ( d , N , δ ) = 1 2 N ( l o g d + l o g 1 δ ) \epsilon(d,N,\delta)=\sqrt{\frac{1}{2N}(log\space d+log\frac{1}{\delta})} ?(d,N,δ)=2N1?(log d+logδ1?) ?
    不等式(1)左端 R ( f ) R(f) R(f)是泛化误差,右端即为泛化误差上界。在泛化误差上界中,第1项是训练误差,训练误差越小,泛化误差越小。第2项 ? ( d , N , δ ) \epsilon(d,N,\delta) ?(d,N,δ)是N的单调递减函数,当 N N N趋于无穷时,它趋于0;同时它也是 l o g d \sqrt{log\space d} log d ?阶的函数,假设空间 F F F包含的函数越多,其值越大。

    **证明:**在证明中要用到 H o e f f d i n g Hoeffding Hoeffding不等式,先叙述如下

    S n = ∑ i = 1 n X i S_n=\sum_{i=1}^nX_i Sn?=i=1n?Xi?是独立随机变量 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1?,X2?,...,Xn?之和, X i ∈ [ a i , b i ] X_i\in [a_i,b_i] Xi?[ai?,bi?],则对任意 t > 0 t>0 t>0,以下不等式成立:
    P ( S n ? E S n ≥ t ) ≤ e x p ( ? 2 t 2 ∑ i = 1 n ( b i ? a i ) 2 ) (2) P(S_n-ES_n\geq t) \leq exp(\frac{-2t^2}{\sum_{i=1}^n(b_i-a_i)^2}) \tag{2} P(Sn??ESn?t)exp(i=1n?(bi??ai?)2?2t2?)(2)

    P ( E S n ? S n ≥ t ) ≤ e x p ( ? 2 t 2 ∑ i = 1 n ( b i ? a i ) 2 ) (3) P(ES_n -S_n \geq t)\leq exp(\frac{-2t^2}{\sum_{i=1}^n(b_i-a_i)^2}) \tag{3} P(ESn??Sn?t)exp(i=1n?(bi??ai?)2?2t2?)(3)

    对任意函数 f ∈ F f\in F fF R ^ ( f ) \hat R(f) R^(f)是N个独立的随机变量 L ( Y , f ( X ) ) L(Y,f(X)) L(Y,f(X))的样本均值, R ( f ) R(f) R(f)是随机变量 L ( Y , f ( X ) ) L(Y,f(X)) L(Y,f(X))的期望值。如果损失函数取值于区间 [ 0 , 1 ] [0,1] [0,1],即对所有i, [ a i , b i ] = [ 0 , 1 ] [a_i,b_i]=[0,1] [ai?,bi?]=[0,1],那么由 H o e f f d i n g Hoeffding Hoeffding不等式(3)不难得知,对 ? > 0 \epsilon>0 ?>0,以下不等式成立:
    P ( R ( f ) ? R ^ ( f ) ≥ ? ) ≤ e x p ( ? 2 N ? 2 ) P(R(f)-\hat R(f)\geq \epsilon) \leq exp(-2 N\epsilon^2) P(R(f)?R^(f)?)exp(?2N?2)
    由于 F = { f 1 , f 2 , . . . , f d } F=\{f_1,f_2,...,f_d\} F={ f1?,f2?,...,fd?}是一个有限集合,故
    P ( ? f ∈ F : R ( f ) ? R ^ ( f ) ≥ ? ) = P ( ? f ∈ F { R ( f ) ? R ^ ( f ) ≥ ? } ) ≤ ∑ f ∈ F P ( R ( f ) ? R ^ ( f ) ≥ ? ) ≤ d e x p ( ? 2 N ? 2 ) P(\exists f\in F:R(f)-\hat R(f)\geq \epsilon)=P(\bigcup_{f\in F}\{R(f)-\hat R(f) \geq \epsilon\}) \\ \leq \sum_{f\in F}P(R(f)-\hat R(f)\geq \epsilon) \\ \leq d \space exp(-2N\epsilon^2) P(?fF:R(f)?R^(f)?)=P(fF??{ R(f)?R^(f)?})fF?P(R(f)?R^(f)?)d exp(?2N?2)
    或者等价的,对任意的 f ∈ F f\in F fF,有
    P ( R ( f ) ? R ^ ( f ) < ? ) ≥ 1 ? d e x p ( ? 2 N ? 2 ) P(R(f)-\hat R(f)< \epsilon) \geq 1-d \space exp(-2N\epsilon ^2) P(R(f)?R^(f)<?)1?d exp(?2N?2)

    δ = d e x p ( ? 2 N ? 2 ) (4) \delta = d\space exp(-2N\epsilon^2) \tag{4} δ=d exp(?2N?2)(4)

    P ( R ( f ) < R ^ ( f ) + ? ) ≥ 1 ? δ P(R(f)<\hat R(f)+\epsilon) \geq 1-\delta P(R(f)<R^(f)+?)1?δ
    则至少以概率 1 ? δ 1-\delta 1?δ R ( f ) < R ^ ( f ) + ? R(f)<\hat R(f)+\epsilon R(f)<R^(f)+?<其中 ? \epsilon ?由(4)得到,即为 ? ( d , N , δ ) \epsilon (d,N,\delta) ?(d,N,δ)

    从泛化误差上界可知,
    R ( f N ) ≤ R ^ ( f N ) + ? ( d , N , δ ) R(f_N)\leq \hat R(f_N)+\epsilon(d,N,\delta) R(fN?)R^(fN?)+?(d,N,δ)
    其中 ? ( d , N , δ ) \epsilon(d,N,\delta) ?(d,N,δ) f N f_N fN?在上面表示。因此,训练误差小的模型,其泛化误差也会小。

    以上的讨论的只是假设空间包含有限个函数情况下的泛化误差上界,对一般的假设空间要找到的泛化误差界就没这么简单。

  相关解决方案