当前位置: 代码迷 >> 综合 >> 7 参数估计
  详细解决方案

7 参数估计

热度:25   发布时间:2024-02-06 22:21:01.0

参数:反应总体某方面特征的量(比如:合格率、均值、方差、中位数…

参数估计的形式:点估计和区间估计

7.1 点估计

借助于总体X的一个样本来估计总体未知参数的值的问题称为参数的点估计问题。

设总体的分布函数为 F ( x ; θ ) F(x; \theta) ,其中 θ \theta 为k维向量。根据样本 X 1 , X 2 , , X n X_1, X_2, \dots, X_n 构造一个统计量 θ ^ ( X 1 , X 2 , , X n ) \hat{\theta}(X_1, X_2, \dots, X_n) 作为 θ \theta 的估计,则称 θ ^ ( X 1 , X 2 , , X n ) \hat{\theta}(X_1, X_2, \dots, X_n) θ \theta 估计量。如果 x 1 , x 2 , , x n x_1, x_2, \dots, x_n 是一个样本观察值,带入 θ ^ \hat{\theta} 后得到的具体值 θ ^ ( x 1 , x 2 , , x n ) \hat{\theta}(x_1, x_2, \dots, x_n) 称为 θ \theta 估计值

常用的点估计方法:矩估计法、极大似然估计法。

一 、矩估计法

统计思想:以样本矩估计总体矩,以样本矩的函数估计总体矩的函数。

理论依据:辛钦大数定律和依概率收敛的性质。

θ 1 , θ 2 , , θ k \theta_1,\theta_2,\dots,\theta_k 为待估参数, X 1 , X 2 , , X n X_1,X_2,\dots,X_n 是来自X的样本。矩估计的具体步骤:

  1. 建立 ( θ 1 , θ 2 , , θ k ) (\theta_1,\theta_2,\dots,\theta_k) ( μ 1 , μ 2 , , μ k ) (\mu_1,\mu_2,\dots,\mu_k) 的联系:求总体前k阶矩关于k个参数的函数
    μ i = E ( X i ) = h i ( θ 1 , θ 2 , , θ k ) , i = 1 , 2 , , k . \mu_i=E(X^i)=h_i(\theta_1,\theta_2,\dots,\theta_k),\quad i=1,2,\dots,k.

  2. 求各参数关于k阶矩的反函数
    θ i = g i ( μ 1 , μ 2 , , μ k ) , i = 1 , 2 , , k \theta_i=g_i(\mu_1,\mu_2,\dots,\mu_k),\quad i=1,2,\dots,k

  3. 以样本各阶矩 A 1 , A 2 , , A k A_1,A_2,\dots,A_k 代替总体X各阶矩 μ 1 , μ 2 , , μ k \mu_1,\mu_2,\dots,\mu_k , 得到各参数的矩估计
    θ ^ i = g i ( A 1 , A 2 , , A k ) , i = 1 , 2 , , k \hat\theta_i=g_i(A_1,A_2,\dots,A_k),\quad i=1,2,\dots,k

【注】:方差 σ 2 \sigma^2 的矩估计并不是(修正)样本方差 S 2 S^2 ,而是样本二阶中心距
B 2 = 1 n i = 1 n ( X i ? X ˉ ) 2 = n ? 1 n S 2 B_2 = \dfrac{1}{n} \sum\limits_{i=1}^n (X_i - \bar{X})^2 = \dfrac{n-1}{n}S^2
矩估计的特点:

  • 直观、简便
  • 适用范围广,不需要知道总体分布的具体类型
  • 没有充分利用总体分布的信息,精度不高

二 、最大似然估计法

离散型总体 X ? p ( x ; θ ) , θ Θ X \sim p(x;\theta),\theta \in \Theta , θ \theta 为待估参数, Θ \Theta 为参数的取值范围。 X 1 , X 2 , , X n X_1,X_2,\dots, X_n 是来自总体X的样本,则 X 1 , X 2 , , X n X_1, X_2, \dots, X_n 的联合分布率为
i = 1 n p ( x i ; θ ) \prod_{i=1}^{n}p(x_i;\theta)
又设 ( x 1 , x 2 , , x n ) (x_1, x_2, \dots, x_n) 是相应于样本的一组观察值,那么样本 X 1 , X 2 , , X n X_1, X_2, \dots, X_n 取到观察值的概率为
L ( θ ) = L ( x 1 , x 2 , , x n ; θ ) = i = 1 n p ( x i ; θ ) , θ Θ L(\theta)=L(x_1,x_2,\dots,x_n;\theta)=\prod_{i=1}^{n}p(x_i;\theta), \quad \theta \in \Theta
L ( θ ) L(\theta) 称为样本的似然函数

最大似然估计法就是固定样本的观察值 x 1 , x 2 , , x n x_1, x_2, \dots, x_n ,在 θ \theta 取值的可能范围 Θ \Theta 内挑选使得最大似然函数 L ( θ ) = L ( x 1 , x 2 , , x n ; θ ) L(\theta)=L(x_1,x_2,\dots,x_n;\theta) 达到最大值的参数值 θ ^ \hat\theta 作为参数 θ \theta 的估计值,即取 θ ^ \hat\theta 使
L ( x 1 , x 2 , , x n ; θ ^ ) = max ? θ Θ L ( x 1 , x 2 , , x n ; θ ) L(x_1,x_2,\dots,x_n;\hat\theta)=\displaystyle\max_{\theta \in \Theta} L(x_1,x_2,\dots,x_n;\theta)

这样得到的 θ ^ \hat\theta 值与 x 1 , x 2 , , x n x_1,x_2,\dots,x_n 有关,常记为 θ ^ ( x 1 , x 2 , , x n ) \hat\theta(x_1,x_2,\dots,x_n) ,称为参数 θ \theta 最大似然估计值,相应的统计量 θ ^ ( X 1 , X 2 , , X n ) \hat\theta(X_1,X_2,\dots,X_n) 称为参数 θ \theta 最大似然估计量

连续型总体的概率密度 f ( x i ; θ ) , θ Θ f(x_i; \theta), \theta \in \Theta θ \theta 为待估参数, Θ \Theta 为参数的取值范围。 X 1 , X 2 , , X n X_1,X_2,\dots, X_n 是来自总体X的样本,则 X 1 , X 2 , , X n X_1, X_2, \dots, X_n 的概率密度函数为
i = 1 n p ( x i ; θ ) \prod_{i=1}^{n} p(x_i; \theta)
又设 x 1 , x 2 , , x n x_1, x_2, \dots, x_n 是样本的一组观察值,那么样本 ( X 1 , X 2 , , X n ) (X_1, X_2, \dots, X_n) 落在 x 1 , x 2 , , x n x_1, x_2, \dots, x_n 的领域内的概率近似为
i = 1 n p ( x i ; θ ) d x i \prod_{i=1}^n p(x_i; \theta) dx_i
因子 i = 1 n d x i \displaystyle\prod_{i=1}^{n}dx_i 与参数 θ \theta 无关, 所以似然函数
L ( θ ) = L ( x 1 , x 2 , , x n ; θ ) = i = 1 n f ( x i ; n ) L(\theta)=L(x_1, x_2, \dots, x_n;\theta)=\prod_{i=1}^n f(x_i;n)
满足下式
L ( x 1 , x 2 , , x n ; θ ^ ) = max ? θ Θ L ( x 1 , x 2 , , x n ; θ ) L(x_1, x_2, \dots, x_n;\hat\theta)=\max_{\theta \in \Theta} L(x_1, x_2, \dots, x_n;\theta)
θ ^ ( x 1 , x 2 , , x n ) \hat\theta(x_1,x_2,\dots,x_n) 称为 θ \theta 最大似然_估计值 θ ^ ( X 1 , X 2 , , X n ) \hat\theta(X_1,X_2,\dots,X_n) 称为最大似然估计量

【说明】:

  • 很多情形下, p ( x i ; θ ) p(x_i;\theta) f ( x ; θ ) f(x;\theta) 关于 θ \theta 可微, θ \theta 可从以下方程中解得
    d d θ L ( θ ) = 0 \frac{d}{d\theta}L(\theta)=0

  • 对数似然函数 : l n L ( θ ) lnL(\theta)

  • 对数似然方程组
    ? L ( θ ) ? θ = i = 1 n ? ln ? p ( x i ; θ ) ? θ = 0 \dfrac{\partial L(\theta)}{\partial \theta} = \sum\limits_{i=1}^n \dfrac{\partial \ln p(x_i; \theta)}{\partial \theta} = 0

7.3 估计量的评选标准

一 、无偏性

定义 θ ^ = θ ^ ( X 1 , X 2 , , X n ) \hat\theta=\hat{\theta}(X_1, X_2, \dots, X_n) 为参数 θ \theta 的一个估计量, Θ \Theta 为参数 θ \theta 的取值范围,若对任意的 θ Θ \theta \in \Theta , 有
E ( θ ^ ) = θ E(\hat{\theta}) = \theta
则称 θ ^ \hat\theta θ \theta 无偏估计量

E ( θ ^ ) 0 E(\hat\theta) \neq 0 , 那么 E ( θ ^ ) ? θ |E(\hat\theta)-\theta| 称为估计量 θ ^ \hat\theta 偏差

lim ? n E ( θ ) = θ \displaystyle\lim_{n \rightarrow \infty}E(\theta)=\theta ,则称 θ ^ \hat\theta θ \theta 渐进无偏估计量

例: 样本均值 X ˉ \bar X 是总体均值 μ \mu 的无偏估计,样本方差 S 2 = 1 n ? 1 i = 1 n ( X i ? X ˉ ) 2 S_2=\dfrac{1}{n-1}\displaystyle\sum_{i=1}^{n}(X_i-\bar X)^2 是总体方差 σ 2 \sigma^2 的无偏估计,而样本二阶中心矩 B 2 = 1 n i = 1 n ( X i ? X ˉ ) 2 = n ? 1 n S 2 B_2=\dfrac{1}{n}\displaystyle\sum_{i=1}^{n}(X_i-\bar X)^2=\dfrac{n-1}{n}S^2 不是总体方差 σ 2 \sigma^2 的无偏估计,但有 lim ? n E ( B 2 ) = lim ? n n ? 1 n σ 2 = σ 2 \displaystyle\lim_{n \rightarrow \infty}E(B_2)=\lim_{n \rightarrow \infty}\frac{n-1}{n}\sigma^2=\sigma^2 ,所以 B 2 B_2 σ 2 \sigma^2 的渐进无偏估计。

纠偏方法:如果 E ( θ ^ ) = a θ + b θ Θ E(\hat\theta)=a\theta+b,\theta \in \Theta 其中 a , b a,b 是常数,且 a 0 a \ne 0 ,则 1 a ( θ ^ ? b ) \dfrac{1}{a}(\hat\theta-b) θ \theta 的无偏估计。

二 、有效性

定义 θ ^ 1 = θ ^ 1 ( X 1 , X 2 , , X n ) \hat\theta_1=\hat\theta_1(X_1,X_2,\dots,X_n) θ ^ 2 = θ ^ 2 ( X 1 , X 2 , , X n ) \hat\theta_2=\hat\theta_2(X_1,X_2,\dots,X_n) 都是 θ \theta 的无偏估计量,若对于任意的 θ Θ \theta \in \Theta ,有
D ( θ ^ 1 ) D ( θ ^ 2 ) D(\hat\theta_1) \leq D(\hat\theta_2)
且至少对于某一个 θ Θ \theta \in \Theta 上式中的不等号成立,则称 θ ^ 1 \hat\theta_1 θ ^ 2 \hat\theta_2 有效

三 、均方误差准则

定义 E ( θ ^ ? θ ) 2 E(\hat{\theta} - \theta)^2 均方误差,记为M(\hat{\theta}, \theta)M(θ^,θ)。显然,均方误差越小越好,这一准则称为均方误差准则

均方误差可以分为两部分:
M ( θ ^ , θ ) = D ( θ ^ ) + ( E ( θ ^ ) ? θ ) 2 M(\hat{\theta}, \theta) = D(\hat{\theta}) + (E(\hat{\theta}) - \theta)^2
如果估计量是无偏估计,那么第二部分为0,均方误差变为方差。

四 、相合性

定义 θ ^ ( X 1 , X 2 , , X n ) \hat{\theta}(X_1, X_2, \dots, X_n) 为参数 θ \theta 的一个估计量, Θ \Theta 若对任意的 θ Θ \theta \in \Theta , 当 n n \rightarrow \infty 时, θ ^ ( X 1 , X 2 , , X n ) \hat\theta(X_1,X_2,\dots, X_n) 依概率收敛于 θ \theta ,则称 θ ^ \hat\theta θ \theta 相合性估计量

即,若对于任意 θ Θ \theta \in \Theta 都满足:对于任意 ε > 0 \varepsilon > 0 ,有
lim ? n { θ ^ ? θ < ε } = 1 \lim_{n\rightarrow\infty}\{ |\hat\theta-\theta|<\varepsilon \}=1
则称 θ ^ \hat\theta θ \theta 相合性估计量