当前位置: 代码迷 >> 综合 >> 【定量分析、量化金融与统计学】统计推断基础(2)---样本均值分布、中心极限定理、正态分布
  详细解决方案

【定量分析、量化金融与统计学】统计推断基础(2)---样本均值分布、中心极限定理、正态分布

热度:51   发布时间:2023-09-20 12:19:18.0

目录

一、前言

二、样本均值分布

三、中心极限定理

*****中心极限定理

***大数定理与中心极限定理有什么区别?

四、正态(概率)分布


一、前言

我发现很多人学了很久的统计学,很多总是概念混淆,那今天我们来盘一盘统计推断基础的三个基本概念:样本均值分布、中心极限定理、正态分布。这个系列统计推断基础5部分分别是:

  1. 总体、样本、标准差、标准误     :【定量分析、量化金融与统计学】统计推断基础(1)---总体、样本、标准差、标准误   
  2. 样本均值分布、中心极限定理、正态分布
  3. 点估计、区间估计
  4. 假设检验
  5. I型误差,II型误差

重点在基础概念,基础不牢,地动山摇,不关你是做研究还是本科基础学习阶段,基础都是很重要的。

二、样本均值分布

上次我们说了什么是样本,什么是抽样。

那么这次首先从样本的均值分布开始:

那么我们现在有这样一个例子:

赛艇队由4名体重分别为152,156,160和164磅的桨手组成。找出所有替补队员的可能随机样本,并计算每个样本的样本均值。

【定量分析、量化金融与统计学】统计推断基础(2)---样本均值分布、中心极限定理、正态分布

 那么我们看到有16种可能的样本

我们求出每一个样本的均值,并将样本均值按照数量统计出来,查看这些样本均值是如何分布的。

【定量分析、量化金融与统计学】统计推断基础(2)---样本均值分布、中心极限定理、正态分布

 那么这些样本均值是如何分布的呢?

我们用直方图看一看:

【定量分析、量化金融与统计学】统计推断基础(2)---样本均值分布、中心极限定理、正态分布

 注意:这个是可能的样本分布的概率。

那么其实样本的均值分布,就是你抽样之后每个样本的均值的分布情况。

那么我们再看一个例子,一个数字库里面只由0,1两个数字组成,我们进行抽样,看一看可能的所有样本的概率分布:

【定量分析、量化金融与统计学】统计推断基础(2)---样本均值分布、中心极限定理、正态分布

 那么随着抽样次数的增多,我们会发现:

【定量分析、量化金融与统计学】统计推断基础(2)---样本均值分布、中心极限定理、正态分布

 在下方和上方的概率会缩小,而中间的概率相对于它们会变大。如果我们继续增加n,那么抽样分布的形状会变得更平滑,更钟形。

那么,我们就引出了中心极限定理。

三、中心极限定理

*****中心极限定理

一般来说,总体可以从任意一个分布开始,但随着抽样样本容量的增加,样本均值的抽样分布将越来越像钟形正态曲线。这就是中心极限定理的内容。

【定量分析、量化金融与统计学】统计推断基础(2)---样本均值分布、中心极限定理、正态分布

【定量分析、量化金融与统计学】统计推断基础(2)---样本均值分布、中心极限定理、正态分布

 你的总体分布可以是一个直线,驼峰曲线,过山车曲线,等等,但是随着我抽样样本增加,他总会稳定在正态曲线。

那么这有什么用处呢?

用处太大了,你没发现,中心极限定理给了你一把统计学的利刃,那就是,你可以忽视这些数据原本总体的分布情况。也就是说,你可以在不知道源数据的分布情况的下进行抽样,因为反正他最后都会服从正态分布。这是很重要的,因为在现实生活中,你不可能对你统计的总体数据分布有详细的了解,那你的抽样为什么科学呢?因为他们经过抽样,都会收敛到正态分布。

注意,中心极限定理作用的是拥有均值的分布,为了使中心极限定理能够起作用,我们必须能够计算出样本的平均值。但是注意有一个分布称为柯西分布,没有样本均值,从而中心极限定理论并不适用于它。

***大数定理与中心极限定理有什么区别?

我个人的理解:

大数定理:当实验进行无数次后,所有结果的平均值稳定在某一个值,也就是最终均值收敛了。(我们可以理解为:你在进行单样本抽样,然后你一直扩充这个样本,比如总体有10亿个铅笔,你这个样本里面随机选了9亿9000万个个体,那么随着个体数的增加,这个样本的均值也趋于稳定)

中心极限定理:无数次试验后,所有样本的平均值分布是正态的,也就是说你每一个样本里面有多少个个体我不管,但是我要抽很多次,这些样本的均值逐渐收敛到正态分布。(我们理解为:总体有10亿个铅笔,我每次抽100个作为一个样本,我抽了100亿次,随着你抽样次数的增加,样本的均值分布逐渐稳定收敛)

四、正态(概率)分布

描述连续随机变量最有用的概率分布之一是正态概率分布。

正态分布为钟形曲线:

【定量分析、量化金融与统计学】统计推断基础(2)---样本均值分布、中心极限定理、正态分布

 定义正态分布钟形曲线的概率密度函数为::

【定量分析、量化金融与统计学】统计推断基础(2)---样本均值分布、中心极限定理、正态分布

正态分布的特征:

  1. 整个正态分布族由两个参数:均值μ和标准差σ来区分
  2. 正态曲线上的最高点在均值处,均值也是分布的中位数和众数 
  3. 分布的平均值可以是任何数值:负的、零的或正的 
  4. 正态分布是对称的,均值左边的正态曲线的形状是均值右边的正态曲线形状的镜像
  5. 曲线的尾部在两个方向上都无限延伸,理论上永远不会接触水平轴
  6. 标准偏差决定了正态曲线的平坦程度和宽度;标准差越大,曲线就越宽、越平,数据的变异性就越大

【定量分析、量化金融与统计学】统计推断基础(2)---样本均值分布、中心极限定理、正态分布

 在一些常用的区间中值的百分比为:

【定量分析、量化金融与统计学】统计推断基础(2)---样本均值分布、中心极限定理、正态分布

  相关解决方案