统计推断的基本问题
(1)参数估计问题:总体X的分布函数的形式已知,但它的一个或多个参数为未知,需要借助于X的样本来估计它们。有两种形式:点估计和区间估计
(2)假设检验问题:总体X的分布函数的形式完全未知,或只知其形式,但不知其参数,为了推断总体的某些未知特性,提出某些关于总体的假设。
区间估计
引入:点估计值仅仅是未知参数的一个近似值,它没有反映出这个近似值的误差范围,使用起来把握不大。而区间估计正好弥补了点估计的这个缺陷。
譬如,在估计湖中鱼数的问题中,若根据一个实际样本,得到鱼数N的极大似然估计为1000条,实际上,N的真值可能大于1000条,也可能小于1000条,若能给出一个区间,使我们能以比较高的可靠程度相信它包含真参数值。
?这里所说的”可靠程度“是用概率来度量的,称为置信概率,置信度或置信水平
习惯上把置信水平记作 1 ? α 1-\alpha 1?α,这里 α \alpha α是一个很小的正数。
?置信水平的大小是根据实际需要选定的。
一、置信区间的基本概念
-
置信区间的定义:
设 θ \theta θ是一个待估参数,给定 α > 0 \alpha>0 α>0,若由样本 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1?,X2?,...,Xn?确定的两个统计量 θ ^ 1 = θ ^ 1 ( X 1 , X 2 , . . . , X n ) , θ ^ 2 = θ ^ 2 ( X 1 , X 2 , . . . , X n ) ( θ ^ 1 < θ ^ 2 ) \hat \theta_1=\hat \theta_1(X_1,X_2,...,X_n),\hat \theta_2=\hat \theta_2(X_1,X_2,...,X_n)(\hat \theta_1<\hat \theta_2) θ^1?=θ^1?(X1?,X2?,...,Xn?),θ^2?=θ^2?(X1?,X2?,...,Xn?)(θ^1?<θ^2?)满足
P { θ ^ 1 ≤ θ ≤ θ ^ 2 } = 1 ? α P\{\hat \theta_1\leq \theta \leq \hat \theta_2\}=1-\alpha P{ θ^1?≤θ≤θ^2?}=1?α
则称区间 [ θ ^ 1 , θ ^ 2 ] [\hat \theta_1,\hat \theta_2] [θ^1?,θ^2?]是 θ \theta θ的置信水平(置信度、置信概率)为 1 ? α 1-\alpha 1?α的置信区间, θ ^ 1 \hat \theta_1 θ^1?和 θ ^ 2 \hat \theta_2 θ^2?分别称为置信下限和置信上限。通常可取置信水平 1 ? α = 0.95 1-\alpha=0.95 1?α=0.95或 0.9 0.9 0.9等。可见,对参数 θ \theta θ作区间估计,就是要设法找出两个只依赖于样本的界限(构造统计量)
θ ^ 1 = θ ^ 1 ( X 1 , . . . , X n ) θ ^ 2 = θ ^ 2 ( X 1 , . . . , X n ) \hat \theta_1=\hat \theta_1(X_1,...,X_n) \\ \hat \theta_2=\hat \theta_2(X_1,...,X_n) θ^1?=θ^1?(X1?,...,Xn?)θ^2?=θ^2?(X1?,...,Xn?)
其中 θ ^ 1 < θ ^ 2 \hat \theta_1 < \hat \theta_2 θ^1?<θ^2?,一旦有了样本,就把 θ \theta θ估计在区间 [ θ ^ 1 , θ ^ 2 ] [\hat \theta_1, \hat \theta_2] [θ^1?,θ^2?]内。 -
要求:
- 要求 θ \theta θ以很大的可能被包含在区间 [ θ ^ 1 , θ ^ 2 ] [\hat \theta_1,\hat \theta_2] [θ^1?,θ^2?]内,就是说,概率 P { θ ^ 1 ≤ θ ≤ θ ^ 2 } P\{\hat \theta_1\leq \theta\leq \hat \theta_2\} P{ θ^1?≤θ≤θ^2?}要尽可能大。即要求估计尽量可靠。
- 估计的精度要尽可能的高。如要求区间长度 θ ^ 2 ? θ ^ 1 \hat \theta_2 - \hat \theta_1 θ^2??θ^1?尽可能短,或能体现该要求的其它准则。
- 可靠度与精度是一对矛盾,一般是在保证可靠度的条件下,尽可能提高精度。
-
寻找置信区间的方法,一般是从确定误差限入手。
? 我们选取未知参数的某个估计量 θ ^ \hat \theta θ^,根据置信水平 1 ? α 1-\alpha 1?α,可以找到一个正数 δ \delta δ,使得
P { ∣ θ ^ ? θ ∣ ≤ δ } = 1 ? α P\{|\hat \theta-\theta|\leq \delta\}=1-\alpha P{
∣θ^?θ∣≤δ}=1?α
? 称 δ \delta δ为 θ ^ \hat \theta θ^与 θ \theta θ之间的误差限。
? 只要知道 θ ^ \hat \theta θ^的概率分布,确定误差限并不难。
? 由不等式 ∣ θ ^ ? θ ∣ ≤ δ |\hat \theta - \theta|\leq \delta ∣θ^?θ∣≤δ可以解出 θ \theta θ:
θ ^ ? δ ≤ θ ≤ θ ^ + δ \hat \theta-\delta \leq \theta \leq \hat \theta + \delta θ^?δ≤θ≤θ^+δ
? 这个不等式就是我们所求的置信区间。
二、置信区间的求法
-
一般步骤:
-
明确问题,是求什么参数的置信区间?置信水平 1 ? α 1-\alpha 1?α是多少?
-
寻找参数 θ \theta θ的一个良好的点估计
T ( X 1 , X 2 , . . . , X n ) T(X_1,X_2,...,X_n) T(X1?,X2?,...,Xn?) -
寻找一个待估参数 θ \theta θ和估计量 T T T的函数 S ( T , θ ) S(T,\theta) S(T,θ),且其分布为已知。称 S ( T , θ ) S(T,\theta) S(T,θ)为枢轴量。
-
对于给定的置信水平 1 ? α 1-\alpha 1?α,根据 S ( T , θ ) S(T,\theta) S(T,θ)的分布,确定常数 a 、 b a、b a、b,使得
P ( a ≤ S ( T , θ ) ≤ b ) = 1 ? α P(a\leq S(T,\theta)\leq b)=1-\alpha P(a≤S(T,θ)≤b)=1?α -
对" α ≤ S ( T , θ ) ≤ b \alpha\leq S(T,\theta) \leq b α≤S(T,θ)≤b"作等价变形,得到如下形式:
P { θ ^ 1 ≤ θ ≤ θ ^ 2 } = 1 ? α P\{\hat \theta_1 \leq \theta \leq \hat \theta_2\}=1-\alpha P{ θ^1?≤θ≤θ^2?}=1?α
则 [ θ ^ 1 , θ ^ 2 ] [\hat \theta_1, \hat \theta_2] [θ^1?,θ^2?]就是 θ \theta θ的 100 ( 1 ? α ) % 100(1-\alpha)\% 100(1?α)%的置信区间
-