目录
一、前言
二、总体与样本
1.总体(population)的概念
2.总体的性质与参数
首先是:平均数(mean)?
标准差(standard deviation,SD)σ希腊字母sigma
3.样本(sample)的概念
3.1.为什么会出现样本的概念?以及抽样
3.2 样本的性质与参数
*****3.3 多样本抽样的概念与性质参数(关键小节)
一、前言
我发现很多人学了很久的统计学,仍然搞不清楚什么事标准差,标准误,什么是样本,什么是总体,总是概念混淆,那今天我们来盘一盘统计推断基础的四个基本概念:总体,样本,标准差,标准误。这个系列统计推断基础5部分分别是:
- 总体、样本、标准差、标准误
- 样本均值分布、中心极限定理、正态分布
- 点估计、区间估计
- 假设检验
- I型误差,II型误差
重点在基础概念,基础不牢,地动山摇,不关你是做研究还是本科基础学习阶段,基础都是很重要的。
我尽量使用语言来描述这些概念,少量使用数学公式,因为教科书上的公式已经很多了,相信来看博客的基本都是带着疑问来的,那我就用直觉的语言来解释概念,必要时使用数学公式。
二、总体与样本
1.总体(population)的概念
“总体”包含您想要理解的所有观察结果,就是我们的“现实”。
例如,您想知道工厂在一个时间段内生产的所有铅笔的平均长度,以查看输出是否得到控制,以及机器是否需要重新校准。
那么什么是总体呢?
工厂在一个时间段内生产的所有铅笔
这个就应该是你的总体包含的所有对象。
2.总体的性质与参数
总体有一些我们通常感兴趣的参数
首先是:平均数(mean)?
平均数衡量总体的平均水平
例如:我们的铅笔平均长度为10cm,那么就是说这个工厂生产的铅笔的长度平均水平为10cm,这样能让我们对一个总体有一个大致的感受。
但是,有一个问题是平均数能否真实反映一个整体的平均水平呢?
就像有的公司会公布自己的平均薪资,例如XX公司的员工平均薪资是10w/月,但是实际情况却是这个公司的10名高管(也算员工)每个人的月薪1000w,1000员工每个人的平均工资是((10*1010)-(10*1000))/1000 = 0.1w/月,你会发现一个巨大的差异,你不是说员工的平均工资10w每月么,但是其实这个平均数已经不能反应整体水平了,因为平均数受到了大数影响,从而导致了观察偏差。所以如果你只用平均数来衡量一个整体的平均水平是非常不专业的行为,这已经违背了统计学的科学性。
***然后是容易混淆的概念:
标准差(standard deviation,SD)σ希腊字母sigma
你注意,我说的是标准差,不是标准误。
那么标准差是对数据变化的测量。反映总体的离散程度(或者你可以说是不规则程度)
假设:我们工厂生产的所有铅笔都是这样的:
那么很显然,这是个标准差很高的总体,当然,也说明,我们的生产机器不太行了,可能要换一批新的机器。
如果我们生产的铅笔是这样的:
那这就是个标准差很低的总体。
标准差的公式:
3.样本(sample)的概念
3.1.为什么会出现样本的概念?以及抽样
当我们想要测试总体的平均值或者SD时,你需要怎么做?
是不是统计总体中的所有个体,这叫做普查。
但是这是个理想情况下的手段,现实中,当你面对大量个体时,这会极大消耗你的时间。
就例如:中国的人口普查,这是项任务极其繁重的工程
或者假设你的工厂生产了10亿支铅笔,你真的要普查所有的铅笔,每一个都量一量?
实际情况可能是:
工厂的10亿铅笔,你可能会挑选100w支或者1000w支来做一个大致统计,那么问题来了。
你怎么挑选这100w或者1000w?
这就是抽样问题,你的抽样方案就是你的抽样策略。
你抽出来的这100w或者1000w的铅笔就是一个样本。
通过抽样,然后对样本进行分析,能够极大的减轻我们的时间成本。
但是,为什么样本能代表整体呢?这种方法科学么?(下节说)
3.2 样本的性质与参数
样本均值 X bar:
衡量样本的平均水平。
样本的标准差Sample standard deviation (s):
衡量样本的离散程度(或者不规则程度)
嗯?你会发现样本和总体都是标准差,那标准误是什么?
*****3.3 多样本抽样的概念与性质参数(关键小节)
你在抽样的时候为了避免因为各种原因造成的误差,你肯定不会只抽一次样本,你肯定会多次抽样,比如那10亿支铅笔,我第一组抽100w,统计数据记为TS1,放回,再抽100w,再统计记为TS2,...,反复抽了6次。
那么你现在有6个样本数据:TS1,TS2,TS3,TS4,TS5,TS6
每个样本有自己的均值和标准差(SD):
均值 | 标准差 | |
TS1 | m1 | s1 |
TS2 | m2 | s2 |
TS3 | m3 | s3 |
TS4 | m4 | s4 |
TS5 | m5 | s5 |
TS6 | m6 | s6 |
那么这些样本的均值的均值是什么呢?是不是能反映这些样本的平均水平呢?
均值 | 标准差 | |
TS1 | m1 | s1 |
TS2 | m2 | s2 |
TS3 | m3 | s3 |
TS4 | m4 | s4 |
TS5 | m5 | s5 |
TS6 | m6 | s6 |
所有的样本 | 所有样本的均值的均值 | 所有样本的均值的标准差 |
假设的所有样本的均值的分布:(50个样本为例)
那么所有样本的均值的均值就是多样本的均值
所有样本的均值的标准差就是标准误(Standard error,SE)
所以,注意!
标准差(sd)针对一个样本或是整体,一个!
标准误是多个样本的性质,多个样本的均值的标准差就是标准误(se)!
标准差与标准误转换:
仔细理解
慢点想,看着图想,这其实是个套娃的概念,
我们举个例子:串一下概念
假设有一个数据集总体{1,2,3,4,5,6,7,8,9,10}
我抽两次样,每次随机抽4个数,
样本1:sample 1 ={8,2,5,4}
样本2:sample2 = {10,1,5,6}
样本1的平均值:(8+2+5+4)/4 = 19/4 = 4.75
样本2的平均值:(10+1+5+6)/4 = 22/4 = 5.5
样本1的标准差: 2.5
样本2的标准差: 3.69685
两个样本的标准误:2.5/2 = 1.25, 3.69685/2 = 1.84842275107
除了平均值形式,很多还会有概率形式:
我放一个表在这,摘自国外的量化分析的课程,很详细:(本节只需要看,sample size,SD,MEAN,SE这几行就行,前四行)