目录
一、前言
二、样本均值分布
三、中心极限定理
*****中心极限定理
***大数定理与中心极限定理有什么区别?
四、正态(概率)分布
一、前言
我发现很多人学了很久的统计学,很多总是概念混淆,那今天我们来盘一盘统计推断基础的三个基本概念:样本均值分布、中心极限定理、正态分布。这个系列统计推断基础5部分分别是:
总体、样本、标准差、标准误:【定量分析、量化金融与统计学】统计推断基础(1)---总体、样本、标准差、标准误- 样本均值分布、中心极限定理、正态分布
- 点估计、区间估计
- 假设检验
- I型误差,II型误差
重点在基础概念,基础不牢,地动山摇,不关你是做研究还是本科基础学习阶段,基础都是很重要的。
二、样本均值分布
上次我们说了什么是样本,什么是抽样。
那么这次首先从样本的均值分布开始:
那么我们现在有这样一个例子:
赛艇队由4名体重分别为152,156,160和164磅的桨手组成。找出所有替补队员的可能随机样本,并计算每个样本的样本均值。
那么我们看到有16种可能的样本:
我们求出每一个样本的均值,并将样本均值按照数量统计出来,查看这些样本均值是如何分布的。
那么这些样本均值是如何分布的呢?
我们用直方图看一看:
注意:这个是可能的样本分布的概率。
那么其实样本的均值分布,就是你抽样之后每个样本的均值的分布情况。
那么我们再看一个例子,一个数字库里面只由0,1两个数字组成,我们进行抽样,看一看可能的所有样本的概率分布:
那么随着抽样次数的增多,我们会发现:
在下方和上方的概率会缩小,而中间的概率相对于它们会变大。如果我们继续增加n,那么抽样分布的形状会变得更平滑,更钟形。
那么,我们就引出了中心极限定理。
三、中心极限定理
*****中心极限定理
一般来说,总体可以从任意一个分布开始,但随着抽样样本容量的增加,样本均值的抽样分布将越来越像钟形正态曲线。这就是中心极限定理的内容。
你的总体分布可以是一个直线,驼峰曲线,过山车曲线,等等,但是随着我抽样样本增加,他总会稳定在正态曲线。
那么这有什么用处呢?
用处太大了,你没发现,中心极限定理给了你一把统计学的利刃,那就是,你可以忽视这些数据原本总体的分布情况。也就是说,你可以在不知道源数据的分布情况的下进行抽样,因为反正他最后都会服从正态分布。这是很重要的,因为在现实生活中,你不可能对你统计的总体数据分布有详细的了解,那你的抽样为什么科学呢?因为他们经过抽样,都会收敛到正态分布。
注意,中心极限定理作用的是拥有均值的分布,为了使中心极限定理能够起作用,我们必须能够计算出样本的平均值。但是注意有一个分布称为柯西分布,没有样本均值,从而中心极限定理论并不适用于它。
***大数定理与中心极限定理有什么区别?
我个人的理解:
大数定理:当实验进行无数次后,所有结果的平均值稳定在某一个值,也就是最终均值收敛了。(我们可以理解为:你在进行单样本抽样,然后你一直扩充这个样本,比如总体有10亿个铅笔,你这个样本里面随机选了9亿9000万个个体,那么随着个体数的增加,这个样本的均值也趋于稳定)
中心极限定理:无数次试验后,所有样本的平均值分布是正态的,也就是说你每一个样本里面有多少个个体我不管,但是我要抽很多次,这些样本的均值逐渐收敛到正态分布。(我们理解为:总体有10亿个铅笔,我每次抽100个作为一个样本,我抽了100亿次,随着你抽样次数的增加,样本的均值分布逐渐稳定收敛)
四、正态(概率)分布
描述连续随机变量最有用的概率分布之一是正态概率分布。
正态分布为钟形曲线:
定义正态分布钟形曲线的概率密度函数为::
正态分布的特征:
- 整个正态分布族由两个参数:均值μ和标准差σ来区分
- 正态曲线上的最高点在均值处,均值也是分布的中位数和众数
- 分布的平均值可以是任何数值:负的、零的或正的
- 正态分布是对称的,均值左边的正态曲线的形状是均值右边的正态曲线形状的镜像
- 曲线的尾部在两个方向上都无限延伸,理论上永远不会接触水平轴
- 标准偏差决定了正态曲线的平坦程度和宽度;标准差越大,曲线就越宽、越平,数据的变异性就越大
在一些常用的区间中值的百分比为: