目录
- 0. 写在前面
- 1. 本质
- 2. 内容
-
- 2.1 统计量(样本)
-
- 2.1.1 集中趋势的度量—— 平均数
- 2.1.2 离散性与变异性的度量——距和差
-
- 全距/极差
- 四分位距
- 方差
- 标准差
- 基准
- 小结
-
- 2.2 概率分布
-
- 2.2.1 离散型
-
- 几何分布
- 二项分布
- 泊松分布
- 2.2.2 连续性
-
- 正态分布
- 指数分布
- t 分布
- 2.3 统计推断
-
- 2.3.1 抽样分布
- 2.3.2 参数估计
- 2.3.3 假设检验
- 2.4 补充
-
- 概率计算
- 排列与组合
- 相关与回归
- 3. 从应用层面重新梳理概率与统计
- 4. 一些问题
- 4.1 如何选择图表?
- 4.2 均值和期望的区别?
- 5. 最后
0. 写在前面
概率统计第二篇,作为补充。主要依据框架记录一下相关的具体概念。
概率统计(1)本质
1. 本质
概率学
|
概率分布
|
统计学
通过随机变量的概率分布可以掌握它的随机特性,从而对它进行预测。而概率分布的获得需要进行试验(抽样)并进行数据记录(统计量)。把样本研究的结果用来反映总体的特征称为“统计推断”
因此,可以说概率分布是连接概率论和统计学的至关重要的桥梁。
2. 内容
2.1 统计量(样本)
2.1.1 集中趋势的度量—— 平均数
注意:平均数不止一种,平均值≠均值
平均值分为数值平均和位置平均。
数值平均又分为普通平均数和加权平均数。
位置平均数分为中位数和众数。
-
均值
这里的公式表示的是普通平均数,加权平均数还需要在分子上每一个x项的前面加一个系数(权重),这个系数的含义是每个x出现的概率大小。
均值无法处理由异常值带来的数据偏斜问题,而中位数是一种解决办法。
- 中位数
如果数据看上去体现了不止一种趋势或者有多批数据,那么平均数或者中位数可能都不再适合描述数据,而是应该考虑众数。 - 众数
当众数的数目较少时,或者数据为类别数据而不是数值型数据时,使用使用众数。
小结:
2.1.2 离散性与变异性的度量——距和差
平均数往往只能反映数据的部分信息(数据中心),但是却无法反映数据的波动情况。
全距/极差
全距的两个问题:
① 易受异常值影响 → 引入四分位距
② 无法确定上下界之间的数据情况 → 引入方差、标准差
四分位距
排序数据 + 三个点(四分位数)将数据分为等距四块
四分位距 = 上四分位数 - 下四分位数
注:
① 除了全距和四分位数,还有其他的距可以使用,比如各种百分位距。
② 可以用箱线图绘制各种距”
”距“并不能可靠地反应离散程度,或者说并不能精确地度量变异性。实现的方法之一就是观察每个数值与均值的距离,即可以度量各个数值与均值的平均距离,但是又得保证计算数字都为正:使用方差。
注:为什么不使用绝对值,而是平方?——因为取绝对值会导致不可导
方差
但是,使用平方的表示并不直观:使用标准差(标准差使得度量与原始数据为同一个量纲)
方差速算法:
标准差
标准差越小,数值离均值越近。
基准
有时候会出现需要比较基准的情况:
标准分:通过用均值和标准差对数值进行标准化。
通过这种方法,可以把来自不同数据集的数据得到的 z 分数视为来自同一个数据集或数据分布,从而进行比较。
标准分的作用是将几个数据集转换成一个理论上的新分布,且均值为 0,标准差为 1。
标准分 = 距离均值的标准差个数
有时候,会使用距离均值若干个标准差来表示某个特定数值的相对位置。
小结
小结
2.2 概率分布
2.2.1 离散型
几何分布
二项分布
泊松分布
2.2.2 连续性
正态分布
指数分布
t 分布
2.3 统计推断
总体是通过总体分布的数量特征即参数(如期望和方差) 来反映的。
统计推断有三个重要内容:抽样分布,参数估计和假设检验——
2.3.1 抽样分布
2.3.2 参数估计
参数估计是指用样本统计量去估计总体参数
(1)点估计
点估计指用随机抽样的样本的计算出来的指标值去估计整体指标情况。
常用方法有:
- 用样本均值估计总体均值
- 用样本方差估计总体方差
- 用样本的分位数估计总体分位数
- 用样本的中位数估计总体中位数
(2)区间估计
区间估计,指在点估计的基础上,用一个范围来对总体参数进行估计。
另外,我们把这个估算的区间的准确度(可信度)称为置信度。一般来说,置信度和置信区间一般是相同趋势的:当置信度很高时,置信区间也会很大;当置信区间很大时,置信度也会很高。(越区间越大——把握越大——置信度也就越高)
95%置信区间(Confidence Interval,CI):当给出某个估计值的95%置信区间为【a,b】时,可以理解为我们有95%的信心(Confidence)可以说样本的平均值介于a到b之间,而发生错误的概率为5%。
计算置信区间的方法:
参考置信区间(Confidence Interval)
2.3.3 假设检验
假设检验是指对总体参数所做的一个假设开始,然后搜集样本数据,计算出样本统计量,进而运用这些数据测定假设的总体参数在多大程度上是可靠的,并作出接受假设还是拒绝假设的判断。
假设检验运用的是小概率原理。
2.4 补充
概率计算
-
条件概率
可以用韦恩图和概率树来形象地表示。 -
全概率公式
-
贝叶斯公式
排列与组合
相关与回归
3. 从应用层面重新梳理概率与统计
4. 一些问题
4.1 如何选择图表?
4.2 均值和期望的区别?
均值是统计学中的概念( 统计量),期望是概率论中的概念(数学特征);
均值的描述对象是观察到的样本(部分样本),期望的描述对象是随机变量(整体样本);
如果说概率是频率随样本趋于无穷的极限 ,期望就是平均数随样本趋于无穷的极限,均值和期望的联系也是大数定理联系起来的。
总结:
概率是频率随样本趋于无穷的极限
期望是平均数随样本趋于无穷的极限
5. 最后
参考:
- 《深入浅出统计学》pdf
- 《深入浅出统计学》—木南的书
- 理解概率统计核心思维