当前位置: 代码迷 >> 综合 >> 数学知识——概率统计(10):小结——(概率)分布、概率函数P(x)、概率分布函数F(x)、概率密度函数f(x)
  详细解决方案

数学知识——概率统计(10):小结——(概率)分布、概率函数P(x)、概率分布函数F(x)、概率密度函数f(x)

热度:37   发布时间:2023-12-15 05:54:03.0

目录

  • 1. 思考
  • 2. 内容补充:分布
  • 3. 总结
    • 3.1 分布 = 概率分布(probability distribution)= 性质(描述)
    • 3.2 离散型:概率函数P(x)和分布列
    • 3.3 连续型:概率分布函数F(x)和概率密度函数f(x)

1. 思考

学的有些模糊了,回过头来突然想不起“概率”到底是什么定义,也不知道“分布”的含义,还有,概率统计到底在干一件什么事情?

跳出细枝末节,宏观的来看,其实,本质上不也就是在玩“数据”么:

数据——随机变量;
获取数据——抽样;
描述数据——分布(“总体的”细节描述)、统计量(总体的概述)、相关性分析(变量之间);
分析数据——统计推断方法(参数估计、假设检验);
规律描述——大数定理、中心极限定理

注:分析分布(而不是分析有限的样本)需要使用CDF。

2. 内容补充:分布

  1. 分布
    描述变量的最佳方法之一是列出该变量在数据集中的值,以及每个值出现的次数。这种描述称为该变量的分布(distribution)。(这是”分布“的广义说法)

    分布最常用的呈现方法是直方图(histogram),即展示每个值的频数(frequency)的图形。在这里,“频数”指一个值出现的次数。
    ps:直方图是一个样本分布的完整描述,也可以使用几个描述性的统计量对变量进行一个概述。

    除了直方图,另一种可以表示分布的方法是概率质量函数(probability mass function,PMF)。概率质量函数将每个值映射到其概率。
    ps:概率(probability)是频数的分数表示,样本量为n。要从频数计算出概率,我们将频数除以n,这一过程称为正态化(normalization)。

    直方图和PMF的区别:直方图将值映射到整数型的计数值,而PMF将值映射到浮点型的概率值

  2. 累积分布函数(CDF)
    CDF(cumulative distribution function)

    PMF适用于变量值数量较少的情况。
    在进行分布比较时,CDF尤为有用。

  3. 概率密度函数(PDF)
    CDF的导数称为概率密度函数(probability density function,PDF)。
    对于特定值x,人们通常不会计算其PDF。计算PDF得到的不是概率,而是概率密度(density)。

    在物理学上,密度是单位体积的质量。要计算质量,必须用密度乘以体积。如果密度不是常量,那么需要将其与体积进行积分。
    类似地,概率密度度量单位 x 的概率。为了计算概率,必须在 x 的取值范围上进行积分
    (x是变量了,需要积分了)

    核密度估计(kernel density estimation,KDE)是一种算法,可以对一个样本寻找符合样本数据的适当平滑的PDF。

  4. 分布框架

分布函数的关系框架:
在这里插入图片描述在这里插入图片描述
我们最先接触的是PMF。PMF代表一组离散值的概率。要从PMF得到CDF,需要把概率值累加得到累积概率。反过来,要从CDF得到PMF,需要计算累积概率之间的差值。我们将在接下来的几节讨论这些计算的具体实现。

PDF是连续型CDF的导数,或者说,CDF是PDF的积分。请记住:PDF将值映射到概率密度,要得到概率,必须进行积分运算。

要从离散型分布得到连续型分布,可以进行各种平滑处理。一种平滑处理方法是,假设数据来自一个连续的分析分布(如指数分布或正态分布),然后估计这个分布的参数。另一种方法是核密度估计。

平滑处理的逆向操作是离散化(discretizing),或称为量化(quantizing)。如果在离散点上计算PDF,就可以生成近似这个PDF的PMF。使用数值积分可以获得更好的近似。

3. 总结

分布、概率函数P(x)、概率分布函数F(x)、概率密度函数f(x)

3.1 分布 = 概率分布(probability distribution)= 性质(描述)

  • 广义上的分布 = 随机变量的概率性质

同分布是一种等价关系,每一个等价类就是一个分布。如我们通常谈到的离散分布、均匀分布、伯努利分布、正态分布、泊松分布等,都是指各种类型的分布

  • 狭义上的分布 = 随机变量的概率分布函数

在这里做一个统一,“分布”指广义的分布(描述)。所以分为离散型随机变量的分布(描述)和连续性随机变量的分布(描述)

3.2 离散型:概率函数P(x)和分布列

离散型随机变量的分布描述,用概率函数P(x)实现,得到的整体描述形成了离散型随机变量的分布(列),如:
在这里插入图片描述
注意①:概率分布(列)和概率函数只对离散型变量有意义!描述连续性随机变量需要用概率分布函数和概率密度函数。

为什么"概率分布(列)和概率函数只对离散型变量有意义" ?

离散型变量取某个值xi的概率P(xi)是个确定的值(虽然很多时候我们不知道这个值是多少),即P(xi)≠0:例如,投一次骰子出现2点的概率是P(2)=1/6。

对于连续型变量而言,“取某个具体值的概率”的说法是无意义的,因为取任何单个值的概率都等于0只能说“取值落在某个区间内的概率”,或“取值落在某个值邻域内的概率”,即只能说P(a<xi≤b),而不能说P(xi)。

注意②:“概率分布函数F(x)”和“概率密度函数f(x)”也是可以描述离散型变量的。即:
F(xi)=P(x<xi)=sum(P(x1),P(x2),……,P(xi))(对于离散型变量)或求积分(对于连续型变量,见后图)。

3.3 连续型:概率分布函数F(x)和概率密度函数f(x)

总而言之,对于有限可能的随机事件(离散型),我们可以单个统计其概率,但是但对于有无限可能的随机事件(连续性),元素的个数多到无法用整数下标来编号。

对于”随机的扔一个点到这个正方形里,这个点落在右上方也就是红色区域里的概率是多少?“的问题,我们选择使用了“面积”这一指标来计算,这用到了积分计算。
在这里插入图片描述

  • 概率分布函数F(x):给出取值小于某个值的概率,是概率的累加形式。

概率分布函数F(x)的作用:如下图
(1)给出x落在某区间(a,b]内的概率:P(a<x≤b)=F(b)-F(a)
(2)根据F(x)的斜率判断“区间概率”P(A<x≤B)的变化(实际上就是后面要说的概率密度函数f(x))(特别注意:是判断“区间概率”,即x落在(A,B]中的概率,而不是x取某个确定值的概率,这是连续型变量和离散型变量的本质区别)
??某区间(A,B]内,F(x)越倾斜,表示x落在该区间内的概率P(A<x≤B) 越大。如图中(a,b]区间内F(x)的斜率最大,如果将整个取值区间以δx=b-a的间隔等距分开,则x落在(a,b]内的概率最大。为什么?因为P(A<x≤B) )=F(B)-F(A),所有区间中只有在(a,b]这个区间上(即A=a,B=b)F(B)-F(A)达到最大值,也就是图中竖向红色线段最长。

概率分布函数解析

  • 概率密度函数f(x):给出了变量落在某值xi邻域内(或者某个区间内)的概率变化快慢。
    概率密度函数某一点的值不是概率,而是概率的变化率,概率密度函数下面的面积才是概率。或者换句话说,f(x)的取值表示的是该处极小区间内概率的大小,用来表示该点 可能性大小,但不是取值的概率。(变化率越大 = 越“陡峭” = 可能性越大

概率、概率分布函数、概率密度函数之间的关系
把分布表推广到无限情况,就可以得到连续型随机变量的概率密度函数。此时,随机变量取每个具体的值的概率为0,但在落在每一点处的概率是有相对大小的,描述这个概念的,就是概率密度函数。你可以把这个想象成一个实心物体,在每一点处质量为0,但是有密度,即有相对质量大小。

参考:

  1. 《概率思维》
  2. 概率论与数理统计学习总结
  3. 概率分布
  4. 概率函数P(x)、概率分布函数F(x)、概率密度函数f(x)
  5. 理解概率密度函数
  相关解决方案