参数估计问题是利用从总体抽样得到的信息来估计总体的某些参数或者参数的某些函数.
在参数估计问题 中,假定总体分 布形式已知,未 知的仅仅是一个 或几个参数.
参数估计问题的一般提法
设有一个统计总体 , 总体的分布函数为,其中为未知参数 ( 可以是向量) 。现从该总体抽样,得样本要依据该样本对参数作出估计, 或估计的某个已知函数。这类问题称为参数估计。
点估计
引例: 已知某地区新生婴儿的体重,(未知)
随机抽查100个婴儿 ,得100个体重数据,10,7,6,6.5,5,5.2, …,而全部信息就由这100个数组成 .据此,我们应如何估计?
为估计
我们需要构造出适当的样本的函数,每当有了样本,就代入该函数中算出一个值,用来作为的估计值 。称为参数点估计量,把样本值代入中,得到的一个点估计值 。
用样本体重的均值估计,类似地,用样本体重的方差估计,类似:
寻求估计量的方法
- 矩估计法
- 最大似然估计法
- 最小二乘法
- 贝叶斯方法
矩估计法
由辛钦大数定理 ,
这表明 , 当样本容量很大时 , 在统计上 , 可以用 样本矩去估计总体矩 . 这一事实导出矩估计法.
定义:用样本原点矩估计相应的总体原点矩 , 又用样本原点矩的连续函数估计相应的总体原点矩的 连续函数, 这种参数点估计法称为矩估计法 .理论依据:大数定律
矩估计法的优点是简单易行,并不需要事先知道总体是什么分布 .缺点是,当总体类型已知时,没有充分利用分布提供的信息 .
最大似然估计法
总体类型已知条件下使用的一种参数估计方法 .
估计量的评选标准
关于估计量的评选标准,我们必须强调指出:评价一个估计量的好坏,不能仅仅依据一次试验的结果,而必须由多次试验结果来衡量 .
这是因为估计量是样本的函数, 是随机变量 . 因此,由不同的观测结果,就会求得不同的参数估计值. 因此一个好的估计,应在多次试验中体现出优良性 .
常用的几条标准是:
- 无偏性
- 有效性
- 相合性
无偏性
估计量是随机变量,对于不同的样本值会得到不同的估计值 . 我们希望估计值在未知参数真值附近摆动,而它的期望值等于未知参数的真值. 这就引出无偏性这个标准 .
有效性
相合性
区间估计
前面,我们讨论了参数点估计. 它是用样本算得的一个值去估计未知参数. 但是,点估计值仅仅是未知参数的一个近似值,它没有给出这个近似值的误差范围,使用起来把握不大. 区间估计正好弥补了点估计的这个缺陷 .
我们希望确定一个区间,使我们能以比较高的可靠程度相信它包含真正的参数值.
这里所说的“可靠程度”是用概率来度量的 , 称为置信度或置信水平.
习惯上把置信水平记作,这里是一个 很小的正数.
置信水平的大小是根据实际需要选定的.例如,通常可取置信水平或0.9等。根据一个实际样本,由给定的置信水平,我们求出一个尽可能小的区间 ,使,称区间的置信水平为的置信区间.
置信区间定义
设是 一个待估参数,给定,若由样本确定的两个统计量,,且满足,则称区间是的置信水平(置信度 )为的置信区间.
和分别称为置信下限和置信上限.
目标:
- 要求以很大的可能被包含在区间内,就是说,概率 要尽可能大 .即要求估计尽量可靠.
- 估计的精度要尽可能的高. 如要求区间长度尽可能短,或能体现该要求的其它准则.
置信区间的求法
在求置信区间时,要查表求分位点.
标准正态分布的上分位点
自由度为n的分布的上分位点
自由度为的F分布的上 分位数
求置信区间的一般步骤
需要指出的是,给定样本,给定置信水平 ,置信区间也不是唯一的.对同一个参数,我们可以构造许多置信区间.
我们可以得到未知参数的的任何置信水平小于 1 的置信区间,并且置信水平越高,相应的置信区间平均长度越长.
也就是说,要想得到的区间估计可靠度高, 区间长度就长,估计的精度就差.这是一对矛盾.
实用中一般在保证足够可靠的前提下,尽量使得区间的长度短一些 .
正态总体均值与方差的区间估计
单侧的置信区间
前面讲述的置信区间中置信限都是双侧的,但对于有些实际问题,人们关心的只是参数在一个方向的界限.
例如对于设备、元件的使用寿命来说,平均寿命过长没什么问题,过短就有问题了.
这时, 可将置信上限取为+∞ ,而只着眼于置信下限 ,这样求得的置信区间叫单侧置信区间.