[机器学习]论文笔记-The Gauss-Markov Theorem and Random Regressors_综合

论文笔记-The Gauss-Markov Theorem and Random Regressors

论文信息

文章名称：The Gauss-Markov Theorem and Random Regressors

文章作者：Shaffer, Juliet Popper

收录情况：The American Statistician, Nov, 1991, Vol. 45, No. 4, pp. 269-273

文章链接：https://doi.org/10.1080/00031305.1991.10475819

简要总结

1.论文目的
- 对传统高斯-马尔可夫理论中关于线性回归中自变量 $X$ 当作随机样本后的情况进行了讨论

2.论文方法
- 利用条件概率对估计系数 $β\beta$ 进行了条件无偏、非条件无偏进行了讨论

3.论文结论
- 在非条件无偏下，传统的线性回归理论中得到的估计系数 $β^\hat{\beta}$ 可能并不满足UMVUE的性质。

论文讲解

1.1 传统线性回归的结论和假设

[机器学习]论文笔记-The Gauss-Markov Theorem and Random Regressors

传统线性回归的假设和结论

在高斯-马尔可夫定理中，关于变量 $X$ 的假设是非随机的，只有在这样的前提下，才能得到 $β^\hat{\beta}$ 是最优线性无偏估计量(BLUE)。

1.2 当将 $X$ 作为随机样本分析时，之前的假设会发生改变

自变量拥有随机性的前提后的新的条件假设

如果 $X$ 为随机样本时，之前关于 $Y$ 的假设统统变成了条件假设

变量 $X$ 除了其为连续性的（因为是从样本中采样得到的 $X$ ，你无法说明 $X$ 一定就是连续的），和 $X$ 为一个非退化的矩阵（防止其为奇异阵而无法进行求逆等运算）的假设，其是任意的。

变量 $Y$ 只有关于等式(2)的限制，其也为任意的。

此时我们要寻找关于 $y$ 为线性的 $β\beta$ 的无偏估计量，要满足线性，其首先要满足等式(3)

此时关于估计量的限制为两种情况，一种为条件无偏，即在 $X$ 已知的条件下可得到等式(4)的限制，另一种为非条件无偏，其是在等式(5)的限制下。

不同的人对于此事具有不同的观点，即是否应该具有非条件无偏，所以本文对两种情况都进行了分析。

2.1 条件无偏的情况

条件无偏的情况

条件无偏的情况，传统的高斯-马尔可夫理论可以很好的解释，其于传统的情况一模一样。

2.2 非条件无偏的情况

2.2.1 $(X, y)$ 是全部参数未知的多元联合正态分布

假设 $(X, y)$ 是全部参数未知的多元联合正态分布，此时 $β^\hat{\beta}$ 易证为充分完备统计量，所以其为UMVUE，自然也是BLUE。

2.2.2 除了假设(2)， $X$ 的分布完全未知

此处文中提出了一个 $c_j$ -order统计量的概念，即以矩阵中第 $j$ 个分量做排序得到的统计量。

引理1说明了 $(X, y)$ 的 $c_j$ -order统计量是 $(X, y)$ 的充分统计量，易证。

引理2说明了 $X$ 的 $c_j$ -order统计量是 $X$ 的充分完备统计量，易证。

理论1证明了 $β^\hat{\beta}$ 为BLUE，证明过程为：

定义了对称函数，即关于 $c_j$ -order的函数，本质就是对样本的顺序无关的统计量。
由引理1可以得到 $(X, y)$ 的 $c_j$ -order为其充分统计量，那么任何关于参数的估计由Rao-Blackwell定理知，其关于对称函数的条件期望的方差更小，所以就只关注估计量为样本的对称函数，即 $C′(X)y=C′(X)XβC'(X)y=C'(X)X\beta$ 。
则 $C^{'} (X) X$ 也为对称函数，这个原文没有证明，实际上只要证明任意调换 $X$ 行的顺序对结果无影响即可，或按照定义证明即可。
由于 $C^{'} (X) X$ 为对称函数，所以其为充分完备统计量（对称函数的定义和引理2）,由完备性可得，等式(5)化简成了等式(4)，同时其若满足非条件无偏，其必然也满足条件无偏，此时就回到了高斯-马尔可夫定理的情况中去了。

2.2.3 $X$ 的分布除了假设(2)的信息还有 $E (X^{'} X)$ 已知

结论比较反常，得到的信息更多时，BLUE反而不存在了。

在证明之前，作者先证明了两个引理，基本证明都不是很复杂，用到了高等代数和凸函数的Jensen不等式的知识。其中关于期望的部分用到的关于极限的部分的表述不太严格。(后续发现，这部分作者的证明是错误的，具体不应该是严格大于0的，起码可以找到反例，那最后的证明和结论全部都有问题了)

Part 1 的证明说明的是相对于 $β^\hat{\beta}$ 的方差，任意条件有偏线性估计量 $δ\delta$ 的方差是会随着 $β\beta$
的变大而变大的，因此只要 $β\beta$ 足够大，条件有偏的估计量方差一定更大。所以要寻找方差最小的就只能在条件无偏的情况下寻找，此时得到的结果和高斯-马尔可夫定理找到的 $KaTeX parse error: Expected '}', got 'EOF' at end of input: \hat{\beta]$ 是一样的。

Part 2 的证明说明的是在 $β=0\beta=0$ 的一个邻域内， $β?^=[E(X′X)]?1X′y\hat{\beta^*}=[E(X'X)]^{-1}X'y$ 的方差比 $β^{\hat{\beta}}$ 的方差更小。所以不存在一致最优估计量。

2.3 有限总体

对以上2.2种种情况的推广。

3. 结论

最终结论就是，在总体分布完全未知的情况下，高斯马尔可夫理论是正确的，反而当 $E (X^{'} X)$ 已知时，BLUE将不存在。

[机器学习]论文笔记-The Gauss-Markov Theorem and Random Regressors