当前位置: 代码迷 >> 综合 >> [机器学习]论文笔记-The Gauss-Markov Theorem and Random Regressors
  详细解决方案

[机器学习]论文笔记-The Gauss-Markov Theorem and Random Regressors

热度:91   发布时间:2023-10-18 08:30:36.0

论文笔记-The Gauss-Markov Theorem and Random Regressors

论文信息

文章名称:The Gauss-Markov Theorem and Random Regressors

文章作者:Shaffer, Juliet Popper

收录情况:The American Statistician, Nov, 1991, Vol. 45, No. 4, pp. 269-273

文章链接:https://doi.org/10.1080/00031305.1991.10475819

简要总结

1.论文目的
- 对传统高斯-马尔可夫理论中关于线性回归中自变量XXX当作随机样本后的情况进行了讨论

2.论文方法
- 利用条件概率对估计系数β\betaβ进行了条件无偏、非条件无偏进行了讨论

3.论文结论
- 在非条件无偏下,传统的线性回归理论中得到的估计系数β^\hat{\beta}β^?可能并不满足UMVUE的性质。

论文讲解

1.1 传统线性回归的结论和假设

[机器学习]论文笔记-The Gauss-Markov Theorem and Random Regressors
传统线性回归的假设和结论

在高斯-马尔可夫定理中,关于变量XXX的假设是非随机的,只有在这样的前提下,才能得到β^\hat{\beta}β^?是最优线性无偏估计量(BLUE)。

1.2 当将XXX作为随机样本分析时,之前的假设会发生改变

[机器学习]论文笔记-The Gauss-Markov Theorem and Random Regressors
自变量拥有随机性的前提后的新的条件假设

如果XXX为随机样本时,之前关于YYY的假设统统变成了条件假设

变量XXX除了其为连续性的(因为是从样本中采样得到的XXX,你无法说明XXX一定就是连续的),和XXX为一个非退化的矩阵(防止其为奇异阵而无法进行求逆等运算)的假设,其是任意的。

变量YYY只有关于等式(2)的限制,其也为任意的。

此时我们要寻找关于yyy为线性的β\betaβ的无偏估计量,要满足线性,其首先要满足等式(3)

此时关于估计量的限制为两种情况,一种为条件无偏,即在XXX已知的条件下可得到等式(4)的限制,另一种为非条件无偏,其是在等式(5)的限制下。

不同的人对于此事具有不同的观点,即是否应该具有非条件无偏,所以本文对两种情况都进行了分析。

2.1 条件无偏的情况

[机器学习]论文笔记-The Gauss-Markov Theorem and Random Regressors
[机器学习]论文笔记-The Gauss-Markov Theorem and Random Regressors
条件无偏的情况

条件无偏的情况,传统的高斯-马尔可夫理论可以很好的解释,其于传统的情况一模一样。

2.2 非条件无偏的情况

2.2.1 (X,y)(X,y)(X,y)是全部参数未知的多元联合正态分布
[机器学习]论文笔记-The Gauss-Markov Theorem and Random Regressors

假设(X,y)(X,y)(X,y)是全部参数未知的多元联合正态分布,此时β^\hat{\beta}β^?易证为充分完备统计量,所以其为UMVUE,自然也是BLUE。

2.2.2 除了假设(2),XXX的分布完全未知
[机器学习]论文笔记-The Gauss-Markov Theorem and Random Regressors
[机器学习]论文笔记-The Gauss-Markov Theorem and Random Regressors
[机器学习]论文笔记-The Gauss-Markov Theorem and Random Regressors

此处文中提出了一个cjc_jcj?-order统计量的概念,即以矩阵中第jjj个分量做排序得到的统计量。

引理1说明了(X,y)(X,y)(X,y)cjc_jcj?-order统计量是(X,y)(X,y)(X,y)的充分统计量,易证。

引理2说明了XXXcjc_jcj?-order统计量是XXX的充分完备统计量,易证。

理论1证明了β^\hat{\beta}β^?为BLUE,证明过程为:

  1. 定义了对称函数,即关于cjc_jcj?-order的函数,本质就是对样本的顺序无关的统计量。
  2. 由引理1可以得到(X,y)(X,y)(X,y)cjc_jcj?-order为其充分统计量,那么任何关于参数的估计由Rao-Blackwell定理知,其关于对称函数的条件期望的方差更小,所以就只关注估计量为样本的对称函数,即C′(X)y=C′(X)XβC'(X)y=C'(X)X\betaC(X)y=C(X)Xβ
  3. C′(X)XC'(X)XC(X)X也为对称函数,这个原文没有证明,实际上只要证明任意调换XXX行的顺序对结果无影响即可,或按照定义证明即可。
  4. 由于C′(X)XC'(X)XC(X)X为对称函数,所以其为充分完备统计量(对称函数的定义和引理2),由完备性可得,等式(5)化简成了等式(4),同时其若满足非条件无偏,其必然也满足条件无偏,此时就回到了高斯-马尔可夫定理的情况中去了。
2.2.3 XXX的分布除了假设(2)的信息还有E(X′X)E(X'X)E(XX)已知
[机器学习]论文笔记-The Gauss-Markov Theorem and Random Regressors

结论比较反常,得到的信息更多时,BLUE反而不存在了。

[机器学习]论文笔记-The Gauss-Markov Theorem and Random Regressors
[机器学习]论文笔记-The Gauss-Markov Theorem and Random Regressors

在证明之前,作者先证明了两个引理,基本证明都不是很复杂,用到了高等代数和凸函数的Jensen不等式的知识。其中关于期望的部分用到的关于极限的部分的表述不太严格。(后续发现,这部分作者的证明是错误的,具体不应该是严格大于0的,起码可以找到反例,那最后的证明和结论全部都有问题了)

[机器学习]论文笔记-The Gauss-Markov Theorem and Random Regressors
[机器学习]论文笔记-The Gauss-Markov Theorem and Random Regressors

Part 1 的证明说明的是相对于β^\hat{\beta}β^?的方差,任意条件有偏线性估计量δ\deltaδ的方差是会随着β\betaβ
的变大而变大的,因此只要β\betaβ足够大,条件有偏的估计量方差一定更大。所以要寻找方差最小的就只能在条件无偏的情况下寻找,此时得到的结果和高斯-马尔可夫定理找到的KaTeX parse error: Expected '}', got 'EOF' at end of input: \hat{\beta]是一样的。

Part 2 的证明说明的是在β=0\beta=0β=0的一个邻域内,β?^=[E(X′X)]?1X′y\hat{\beta^*}=[E(X'X)]^{-1}X'yβ?^?=[E(XX)]?1Xy的方差比β^{\hat{\beta}}β^?的方差更小。所以不存在一致最优估计量。


2.3 有限总体

[机器学习]论文笔记-The Gauss-Markov Theorem and Random Regressors
[机器学习]论文笔记-The Gauss-Markov Theorem and Random Regressors

对以上2.2种种情况的推广。


3. 结论

[机器学习]论文笔记-The Gauss-Markov Theorem and Random Regressors

最终结论就是,在总体分布完全未知的情况下,高斯马尔可夫理论是正确的,反而当E(X′X)E(X'X)E(XX)已知时,BLUE将不存在。

  相关解决方案