当前位置: 代码迷 >> 数据仓库 >> 常见的机器学习与数据挖掘知识点之常见遍布
  详细解决方案

常见的机器学习与数据挖掘知识点之常见遍布

热度:153   发布时间:2016-05-05 15:36:47.0
常见的机器学习与数据挖掘知识点之常见分布

常见的机器学习与数据挖掘知识点之常见分布

Common Distribution(常见分布):

Discrete Distribution(离散型分布):

  • 0-1 Distribution(0-1分布)
    定义:若随机变量X只取01两个值,且其分布律为
    P{X=k}=pk(1?p)1?k,k=0,1

    其中X服从参数为p的(0?1)分布,记作X?(0?1). 如抛掷硬币一次便服从两点分布.
    ??两点分布的期望与方差分别为:p,1?p.
  • Geometric Distribution(几何分布)
    定义:若随机变量X的可能取值为1,2,3,...且它的分布律为
    P{X=k}=(1?p)k?1p=qk?1p,k=1,2,3,...

    则称随机变量X服从参数p的几何分布,记作X?G(p).
    ??几何分布具有无记忆性,即:
    P{X>m+n|X>m}=P{X>n}

    指几何分布对过去的m次失败的信息在后面的计算中被遗忘了.
    ??几何分布对应于:X为独立重复的贝努利试验这种,“首次成功”时的试验次数.
    ??几何分布的期望与方差分别为:1p,1?pp2.
  • Hypergeometric Distribution(超几何分布)
    定义:若随机变量X的可能取值为0,1,2,....,n,而且其分布律为
    P{X=m}=CmMCn?mN?MCnN

    其中n,M,N都是正整数,且nN,MN. 上式中当m>Mn?m>N?M时,显然有PX=m=0,称这种分布为超几何分布,记作X?H(n,M,N).
    ??超几何分布对应与不返回抽样模型:N个产品中有M个不合格产品,从中抽取n个,那么不合格的产品个数为X.
    ??超几何分布的期望与方差分别为:nMN,nMNN?MNN?nN?1.
  • Bernoulli Distribution/Binomial Distribution(贝努利分布/二项分布)
    定义:设随机变量X的可能取值为0,1,2,...,n,其它的分布律为
    P{X=k}=Cknpk(1?p)n?k

    则称随机变量X服从参数为n,p的二项分布,记作X?B(n,p),它是n重独立贝努利试验分布成功k次,当n=1时,其退化成0?1分布.
    ??设随机变量X?H(n,M,N),则当N时,X近似地服从二项分布B(n,p),即下面的近似等式成立.
    ??二项分布的期望与方差分别为:np,np(1?p).
  • Negative Binomial Distribution(负二项分布,又称Pascal 帕斯卡分布)
    定义:若随机变量X的可能取值为r,r+1,...,而且其分布律为
    P{X=k}=Cr?1k?1(1?p)k?rpr,k=r,r+1,...

    其中,r,p都是常数,那么称随机变量X服从参数r,p的负二项分布,记作X?NB(r,p).
    ??负二项分布是:X为独立重复的贝努利试验中,“第r次成功“时的试验次数.
    ??负二项分布的期望与方差分别为:rp,r(1?p)p2.
    ??二项随机变量时独立0?1随机变量之和.
    ??在n重贝努利试验可看作由n个相同的,独立进行的贝努利试验组成,若将第i个贝努利试验中成功的次数记为Xi?B(1,p),i=1,...,nn重贝努利试验成功的总次数X=X1+X2+...+Xn,它服从B(n,p).
    ??负二项随机变量时独立几何随机变量之和.
    ??做一系列的贝努利试验,如果将首个成功出现的试验次数记为X1,第二个成功出现时的试验次数(从第一次成功之后算起)记为X2,……,第r个成功出现时的试验次数记为Xr,则Xi独立同分布,且Xi?G(p). 此时有X=X1+X2+...+Xn?NB(r,p).
  • Multinomial Distribution(多项分布)
    定义::若m维随机变量(X1,X2,...,Xm)可能取值为(k1,K2,...,Km),而且其分布律为
    P{X1=k1,X2=k2,...,Xm=km}=n!k1!k2!...km!pk11pk22...pkmm

    其中,mi=1ki=npi>0为试验结果是xi的概率,ki表示试验结果是xi的次数. 那么称随机变量(X1,X2,...,Xm)服从多项分布,记作(X1,X2,...,Xm)?M(n,p1,p2,...,pm).
    ??通俗地说,假设一次随机试验取值范围可能为x1,x2,...xm,每个出现的概率依次为p1,p2,...,pm,现进行独立重复n次试验,分别将它们的出现次数记为随机变量X1,X2,...,Xm,那么该试验就是一个多项分布试验.
    ??多项分布的所有期望与协方差矩阵分别为:E=(np1,np2,...,npm),COVm×m=(cij),cii=npiqi,cij=?npipj(ij).
  • Poisson Distribution (泊松分布)
    定义:若随机变量X的可能取值为0,1,2,...,其分布律为
    P{X=k}=λkk!e?λ,k=0,1,2,...;λ>0

    则称随机变量X服从参数为λ的泊松分布,记作X?P(λ).
    ??泊松定理:设随机变量Xn?B(n,pn),n=1,2,3,...;pn是与n无关的数). 又设npn=λ>0,n=1,2,...是常数,则有
    limnP{Xn=k}=λkk!e?λ

    ??当npn=λ(常数)意味着当n很大时,pn必定很小. 故当二项分布的n很大,p很小时,取λ=np,必有
    P{X=k}=Cknpk(1?p)n?kλkk!e?λ

    在实际计算过程中,一般当n10,p0.1时可用λkk!e?λ作为Cknpk(1?p)n?k的近似值.
    ??泊松分布的期望与方差分别为:λ,λ.

Continuous Distribution (连续型分布):

  • Uniform Distribution(均匀分布)
    定义:设随机变量X的的概率密度为:
    f(x)=?????1b?a,axb,ab0,others????

    则称随机变量X在区间[a,b]上服从均匀分布,记作X?U[a,b].
    ??均匀分布的分布函数为:
    F(x)=P{Xx}=?????0,xax?ab?a,axb,1,xb?????

    ??如果随机变量X?U[a,b],那么落在[a,b]中任何子区间[c,d](acdb)内的概率为:
    P{cXd}=dc1b?adx=d?cb?a

    这说明随机变量X落在子区间上的概率与子区间的长度成正比,而与该子区间的位置无关,即它落在[a,b]中任意一段相等长度的子区间内的可能性相同.
    ??均匀分布的期望与方差分别为:a+b2,(b?a)212.
    ??在实际中,服从均匀分布的例子很多,如:
    • 乘客候车时间服从均匀分布
    • 电台每隔20分钟发出一个信号,我们随手打开收音机,那么等待时间t?[0,20]
    • …..
  • Exponential Distribution(指数分布)
    定义:若随机变量X的的概率密度为:
    f(x)={λe?λx,x>00,x0]

    其中λ是正常数,则称随机变量X服从参数为λ的指数分布,记作X?E(λ).
    指数分布的分布函数为:
    F(x)={1?e?λx,x>00,x0]

    ??实际使用中,常将指数分布作为各种寿命分布的近似,如动物的寿命,电子电气元件的寿命,随机服务系统中的服务时间等.
    ??指数分布具有无记忆性.
    ??指数分布的期望与方差分别为:1λ,1λ2.
  • Normal Distribution/Gaussian Distribution(正态分布/高斯分布)
    定义:若随机变量X的概率密度为
    f(x)=1σ2π???e?(x?μ)22σ2,x(?,+)

    其中μ,σ均为常数,分别为其的期望与方差,且σ>0,则称随机变量X服从参数为μ,σ的正态分布,也称随机变量X为正态变量,记作X?N(μ,σ2).
    ??正态分布的分布函数为:
    F(x)=1σ2π???x?e?(t?μ)22σ2dt,x(?,+)

    ??特别地,当μ=0,σ=1时的正态分布叫做标准正态分布,记作X?N(0,1),它的概率密度使用?(x)表示,为:
    ?(x)=12π???e?x22,x(?,+)

    其分布函数使用Φ(x)表示,为:
    Φ(x)=12π???x?e?t22dt,x(?,+)

    这样就有:
    Φ(?x)=1?Φ(x)

    并且,正态分布N(μ,σ2)的分布函数与标准正态分布N(0,1)的分布函数Φ(x)有:
    F(x)=Φ(x?μσ)

    ??正态分布的期望与方差分别为:μ,σ2.
  • Lognormal Distribution(对数正态分布)
    定义:若随机变量X的对数服从正态分布,那么该随机变量服从对数正态分布,其概率密度为
    f(x)=1σx2π???e?(lnx?μ)22σ2,x>0

    其中μ,σ均为常数,且σ>0,则称随机变量X服从参数为μ,σ的对数正态分布,也称随机变量X为对数正态变量,记作X?LN(μ,σ2),注意:μ,σ不是它的期望与方差.
    ??对数正态分布的分布函数为:
    F(x)=x0+f(t)dt=Φ(lnx?μσ)

    ??对数正态分布的期望与方差分别为:eμ+σ22,e2μ+σ2eσ2?1.
  • Gamma Distribution(伽马分布)
    先导知识:

    • 阶乘:n!=n(n-1)(n-2)…1
    • Gamma(伽马)函数:Gamma函数是阶乘的在实数域与复数域上的拓展,记为Γ(x).

      • 在实数域上伽马函数定义为:
        Γ(x)=+0tx?1e?tdt
      • 在复数域(其中Re(z)>0,即实数部分大于0)上伽马函数定义为:
        Γ(z)=+0tz?1e?tdt

      通过分部积分,可以得到:

      Γ(x+1)=xΓ(x)

      对于正整数n,有:
      Γ(n)=+0tne?tdt=(n?1)!

      那么问题来了:

      • 这个如此奇怪的函数是如何发现的呢?
        ??这就与一些数学大豪有关了,比如哥德巴赫、贝努利、欧拉、高斯等,详细参见神奇的gamma函数.
      • 为何Γ(n)n!而是Γ(n)(n?1)!?
        ??欧拉早期的Gamma函数便是定义为Γ(n)n!,后来对其进行了修正为Γ(n)(n?1)!(具体原因不得而知),可能欧拉研究了
        B(m,n)=10xm?1(1?x)n?1dx

        这个函数便是Beta函数,如果Γ(n)(n?1)!,那么有
        B(m,n)=Γ(m)Γ(n)Γ(m+n)

        该函数是具有非常漂亮的对称形式. 如果Γ(n)n!,那么令
        E(m,n)=10xm(1?x)ndx

        则有
        E(m,n)=Γ(m)Γ(n)Γ(m+n+1)

        这个形式显然不如B(m,n)那么优美,而数学家总是很在乎数学公式的美感的.
        定义:若随机变量X的概率密度为
        f(x)=1βαΓ(α)xα?1e?xβ,x>0

        其中,α形状参数(shape parameter),β尺度参数(scale parameter)均为常数,则称随机变量X服从参数为α,β的伽马分布,记作X?Ga(α,β).
        ??Gamma分布函数为:
        F(x)=x0f(u)du=γ(α,xβ)Γ(α)

        其中
        γ(α,xβ)=xβ0tα?1e?t

        ??若α是正整数,上式是一个Erlang分布:
        F(x)=1?i=0α?1(βx)ii!e?βx=e?βxi=α(βx)ii!

        ??Gamma分布的期望为αβ,方差为αβ2. Gamma分布即为:随机变量X 为等到第α件事发生所需等待时间.
  • Beta Distribution(Beta分布)
    定义:若随机变量X的概率密度为
    f(x)=1B(a,b)xa?1(1?x)b?1,0<x<1

    其中,a>0,b>0均为常数,B(a,b)=Γa+bΓ(a)Γ(b),那么随机变量X服从参数为a,b的贝塔分布,记为X?B(a,b).
    ??贝塔分布的分布函数为:
    F(x)=x0f(t)dt

    ??Beta分布的期望与方差分别为:αα+β,αβα+αβ2+β+1.
  • Dirichlet Distribution(狄利克雷分布)
    定义:若随机变量X的概率密度为
    f(x)=Γ(α0)Γ(α1)...Γ(αK)k=1Kμαk?1k

    其中,μ=(μ1,...,μK),α=(α0,...,αK)中的每一个分量为均常数,并且kμk=1,α0=Kk=1αk ,那么随机变量X服从参数为μ,α的狄利克雷分布,记为X?Dir(μ,α).
  • Rayleigh Distribution(瑞利分布)
    定义:若随机变量X的概率密度为
    f(x)=xσ2e?x22σ2,x0

    其中,σ>0为常数,那么随机变量X服从参数为σ的瑞利分布,记为X?R(σ).
    ??瑞利分布的分布函数为:
    F(x)=x0f(t)dt

    ??瑞利分布的期望与方差分别为:π2σ,4?π2σ2
  • Cauchy Distribution(柯西分布)
    定义:若随机变量X的概率密度为
    f(x)=1πγ[1+(x?x0)2γ],x(?,+)

    其中,x0,γ(γ>0)尺度参数均为常数,那么随机变量X服从参数为x0,γ的柯西分布,记为X?C(x0,γ).
    ??柯西分布的分布函数为:
    F(x)=x?f(t)dt=πarctan(x?x0γ)+12,x(?,+)

    ??柯西分布的期望与方差均不存在.
  • Weibull Distribution(韦伯分布)
    ??韦伯分布的期望与方差分别为:
    定义:若随机变量X的概率密度为
    f(x)=βη(xη)β?1e?(xη)β,x0

    其中,η>0,β>0均为常数,那么随机变量X服从参数为η,β的韦伯分布,记为X?W(η,β).
    ??韦伯分布的分布函数为:
    F(x)=x?0f(t)dt=1?e?(xη)β

    ??韦伯分布的期望与方差分别为:ηΣ(1β+1),η2(Γ(2β+1)?Γ(1β+1)).
    ??它的累积分布函数是扩展的指数分布函数,而且,Weibull distribution与很多分布都有关系。如,当β=1,它是指数分布;β=2时,是Rayleigh Distribution(瑞利分布).
  • Laplacian Distribution(拉普拉斯分布)
    定义:若随机变量X的概率密度为
    f(x)=12be?|x?μ|b

    其中,μ,b(b>0)均为常数,那么随机变量X服从参数为μ,b的拉普拉斯分布,记为X?L(μ,b).
    ??概率密度函数如下图所示:
    这里写图片描述
    ??拉普拉斯分布的分布函数为:
    F(x)=x?f(t)dt12[1+sgn(x?u)e?|x?μ|b]

    ??拉普拉斯分布的期望与方差分别为:μ,2b2.

版权声明:本文为博主原创文章,转载请标明地址。

  相关解决方案