常见的机器学习与数据挖掘知识点之常见分布
Common Distribution(常见分布):
Discrete Distribution(离散型分布):
- 0-1 Distribution(0-1分布)
定义:若随机变量X 只取0 和1 两个值,且其分布律为P{X=k}=pk(1?p)1?k,k=0,1
其中X 服从参数为p的(0?1) 分布,记作X?(0?1) . 如抛掷硬币一次便服从两点分布.
??两点分布的期望与方差分别为:p,1?p . - Geometric Distribution(几何分布)
定义:若随机变量X 的可能取值为1,2,3,... 且它的分布律为P{X=k}=(1?p)k?1p=qk?1p,k=1,2,3,...
则称随机变量X 服从参数p的几何分布,记作X?G(p) .
??几何分布具有无记忆性,即:P{X>m+n|X>m}=P{X>n}
指几何分布对过去的m次失败的信息在后面的计算中被遗忘了.
??几何分布对应于:X 为独立重复的贝努利试验这种,“首次成功”时的试验次数.
??几何分布的期望与方差分别为:1p,1?pp2 . - Hypergeometric Distribution(超几何分布)
定义:若随机变量X 的可能取值为0,1,2,....,n ,而且其分布律为P{X=m}=CmMCn?mN?MCnN
其中n,M,N 都是正整数,且n≤N,M≤N . 上式中当m>M 或n?m>N?M 时,显然有PX=m=0 ,称这种分布为超几何分布,记作X?H(n,M,N) .
??超几何分布对应与不返回抽样模型:N 个产品中有M 个不合格产品,从中抽取n 个,那么不合格的产品个数为X .
??超几何分布的期望与方差分别为:nMN,nMNN?MNN?nN?1 . - Bernoulli Distribution/Binomial Distribution(贝努利分布/二项分布)
定义:设随机变量X 的可能取值为0,1,2,...,n ,其它的分布律为P{X=k}=Cknpk(1?p)n?k
则称随机变量X 服从参数为n,p 的二项分布,记作X?B(n,p) ,它是n 重独立贝努利试验分布成功k 次,当n=1 时,其退化成0?1 分布.
??设随机变量X?H(n,M,N) ,则当N→∞ 时,X 近似地服从二项分布B(n,p) ,即下面的近似等式成立.
??二项分布的期望与方差分别为:np,np(1?p) . - Negative Binomial Distribution(负二项分布,又称Pascal 帕斯卡分布)
定义:若随机变量X 的可能取值为r,r+1,... ,而且其分布律为P{X=k}=Cr?1k?1(1?p)k?rpr,k=r,r+1,...
其中,r,p 都是常数,那么称随机变量X 服从参数r,p 的负二项分布,记作X?NB(r,p) .
??负二项分布是:X为独立重复的贝努利试验中,“第r 次成功“时的试验次数.
??负二项分布的期望与方差分别为:rp,r(1?p)p2 .
??二项随机变量时独立0?1 随机变量之和.
??在n重贝努利试验可看作由n 个相同的,独立进行的贝努利试验组成,若将第i 个贝努利试验中成功的次数记为Xi?B(1,p),i=1,...,n ,n 重贝努利试验成功的总次数X=X1+X2+...+Xn ,它服从B(n,p) .
??负二项随机变量时独立几何随机变量之和.
??做一系列的贝努利试验,如果将首个成功出现的试验次数记为X1 ,第二个成功出现时的试验次数(从第一次成功之后算起)记为X2 ,……,第r 个成功出现时的试验次数记为Xr ,则Xi 独立同分布,且Xi?G(p) . 此时有X=X1+X2+...+Xn?NB(r,p) . - Multinomial Distribution(多项分布)
定义::若m 维随机变量(X1,X2,...,Xm) 可能取值为(k1,K2,...,Km) ,而且其分布律为P{X1=k1,X2=k2,...,Xm=km}=n!k1!k2!...km!pk11pk22...pkmm
其中,∑mi=1ki=n ,pi >0为试验结果是xi 的概率,ki 表示试验结果是xi 的次数. 那么称随机变量(X1,X2,...,Xm) 服从多项分布,记作(X1,X2,...,Xm)?M(n,p1,p2,...,pm) .
??通俗地说,假设一次随机试验取值范围可能为x1,x2,...xm ,每个出现的概率依次为p1,p2,...,pm ,现进行独立重复n 次试验,分别将它们的出现次数记为随机变量X1,X2,...,Xm ,那么该试验就是一个多项分布试验.
??多项分布的所有期望与协方差矩阵分别为:E=(np1,np2,...,npm),COVm×m=(cij),其中cii=npiqi,cij=?npipj(i≠j) . - Poisson Distribution (泊松分布)
定义:若随机变量X 的可能取值为0,1,2,... ,其分布律为P{X=k}=λkk!e?λ,k=0,1,2,...;常数λ>0
则称随机变量X 服从参数为λ 的泊松分布,记作X?P(λ) .
??泊松定理:设随机变量Xn?B(n,pn),n=1,2,3,...;pn 是与n 无关的数) . 又设npn=λ>0,n=1,2,... 是常数,则有limn→∞P{Xn=k}=λkk!e?λ
??当npn=λ (常数)意味着当n 很大时,pn 必定很小. 故当二项分布的n 很大,p 很小时,取λ=np ,必有P{X=k}=Cknpk(1?p)n?k≈λkk!e?λ
在实际计算过程中,一般当n≥10,p≤0.1 时可用λkk!e?λ 作为Cknpk(1?p)n?k 的近似值.
??泊松分布的期望与方差分别为:λ,λ .
Continuous Distribution (连续型分布):
- Uniform Distribution(均匀分布)
定义:设随机变量X 的的概率密度为:f(x)=?????1b?a,a≤x≤b,a≤b0,others????
则称随机变量X 在区间[a,b] 上服从均匀分布,记作X?U[a,b] .
??均匀分布的分布函数为:F(x)=P{X≤x}=?????0,x≤ax?ab?a,a≤x≤b,1,x≥b?????
??如果随机变量X?U[a,b] ,那么落在[a,b] 中任何子区间[c,d](a≤c≤d≤b) 内的概率为:P{c≤X≤d}=∫dc1b?adx=d?cb?a
这说明随机变量X 落在子区间上的概率与子区间的长度成正比,而与该子区间的位置无关,即它落在[a,b] 中任意一段相等长度的子区间内的可能性相同.
??均匀分布的期望与方差分别为:a+b2,(b?a)212 .
??在实际中,服从均匀分布的例子很多,如:- 乘客候车时间服从均匀分布
- 电台每隔20分钟发出一个信号,我们随手打开收音机,那么等待时间
t?[0,20] - …..
- Exponential Distribution(指数分布)
定义:若随机变量X 的的概率密度为:f(x)={λe?λx,x>00,x≤0]
其中λ 是正常数,则称随机变量X 服从参数为λ 的指数分布,记作X?E(λ) .
指数分布的分布函数为:F(x)={1?e?λx,x>00,x≤0]
??实际使用中,常将指数分布作为各种寿命分布的近似,如动物的寿命,电子电气元件的寿命,随机服务系统中的服务时间等.
??指数分布具有无记忆性.
??指数分布的期望与方差分别为:1λ,1λ2 . - Normal Distribution/Gaussian Distribution(正态分布/高斯分布)
定义:若随机变量X 的概率密度为f(x)=1σ2π???√e?(x?μ)22σ2,x∈(?∞,+∞)
其中μ,σ 均为常数,分别为其的期望与方差,且σ>0 ,则称随机变量X 服从参数为μ,σ 的正态分布,也称随机变量X 为正态变量,记作X?N(μ,σ2) .
??正态分布的分布函数为:F(x)=1σ2π???√∫x?∞e?(t?μ)22σ2dt,x∈(?∞,+∞)
??特别地,当μ=0,σ=1 时的正态分布叫做标准正态分布,记作X?N(0,1) ,它的概率密度使用?(x) 表示,为:?(x)=12π???√e?x22,x∈(?∞,+∞)
其分布函数使用Φ(x) 表示,为:Φ(x)=12π???√∫x?∞e?t22dt,x∈(?∞,+∞)
这样就有:Φ(?x)=1?Φ(x)
并且,正态分布N(μ,σ2) 的分布函数与标准正态分布N(0,1) 的分布函数Φ(x) 有:F(x)=Φ(x?μσ)
??正态分布的期望与方差分别为:μ,σ2 . - Lognormal Distribution(对数正态分布)
定义:若随机变量X 的对数服从正态分布,那么该随机变量服从对数正态分布,其概率密度为f(x)=1σx2π???√e?(lnx?μ)22σ2,x>0
其中μ,σ 均为常数,且σ>0 ,则称随机变量X 服从参数为μ,σ 的对数正态分布,也称随机变量X 为对数正态变量,记作X?LN(μ,σ2) ,注意:μ,σ 不是它的期望与方差.
??对数正态分布的分布函数为:F(x)=∫x0+f(t)dt=Φ(lnx?μσ)
??对数正态分布的期望与方差分别为:eμ+σ22,e2μ+σ2eσ2?1 . Gamma Distribution(伽马分布)
先导知识:- 阶乘:n!=n(n-1)(n-2)…1
Gamma(伽马)函数:Gamma函数是阶乘的在实数域与复数域上的拓展,记为
Γ(x) .- 在实数域上伽马函数定义为:
Γ(x)=∫+∞0tx?1e?tdt - 在复数域(其中Re(z)>0,即实数部分大于0)上伽马函数定义为:
Γ(z)=∫+∞0tz?1e?tdt
通过分部积分,可以得到:
Γ(x+1)=xΓ(x)
对于正整数n ,有:Γ(n)=∫+∞0tne?tdt=(n?1)!
那么问题来了:- 这个如此奇怪的函数是如何发现的呢?
??这就与一些数学大豪有关了,比如哥德巴赫、贝努利、欧拉、高斯等,详细参见神奇的gamma函数. - 为何
Γ(n)≠n! 而是Γ(n)≠(n?1)! ?
??欧拉早期的Gamma函数便是定义为Γ(n)≠n! ,后来对其进行了修正为Γ(n)≠(n?1)! (具体原因不得而知),可能欧拉研究了B(m,n)=∫10xm?1(1?x)n?1dx
这个函数便是Beta函数,如果Γ(n)≠(n?1)! ,那么有B(m,n)=Γ(m)Γ(n)Γ(m+n)
该函数是具有非常漂亮的对称形式. 如果Γ(n)≠n! ,那么令E(m,n)=∫10xm(1?x)ndx
则有E(m,n)=Γ(m)Γ(n)Γ(m+n+1)
这个形式显然不如B(m,n) 那么优美,而数学家总是很在乎数学公式的美感的.
定义:若随机变量X 的概率密度为f(x)=1βαΓ(α)xα?1e?xβ,x>0
其中,α 形状参数(shape parameter),β 尺度参数(scale parameter)均为常数,则称随机变量X 服从参数为α,β 的伽马分布,记作X?Ga(α,β) .
??Gamma分布函数为:F(x)=∫x0f(u)du=γ(α,xβ)Γ(α)
其中γ(α,xβ)=∫xβ0tα?1e?t
??若α 是正整数,上式是一个Erlang分布:F(x)=1?∑i=0α?1(βx)ii!e?βx=e?βx∑i=α∞(βx)ii!
??Gamma分布的期望为αβ ,方差为αβ2 . Gamma分布即为:随机变量X 为等到第α 件事发生所需等待时间.
- 在实数域上伽马函数定义为:
- Beta Distribution(Beta分布)
定义:若随机变量X 的概率密度为f(x)=1B(a,b)xa?1(1?x)b?1,0<x<1
其中,a>0,b>0 均为常数,B(a,b)=Γa+bΓ(a)Γ(b) ,那么随机变量X 服从参数为a,b 的贝塔分布,记为X?B(a,b) .
??贝塔分布的分布函数为:F(x)=∫x0f(t)dt
??Beta分布的期望与方差分别为:αα+β,αβα+αβ2+β+1 . - Dirichlet Distribution(狄利克雷分布)
定义:若随机变量X 的概率密度为f(x)=Γ(α0)Γ(α1)...Γ(αK)∏k=1Kμαk?1k
其中,μ? =(μ1,...,μK),α? =(α0,...,αK) 中的每一个分量为均常数,并且∑kμk=1,α0=∑Kk=1αk ,那么随机变量X 服从参数为μ? ,α? 的狄利克雷分布,记为X?Dir(μ? ,α? ) . - Rayleigh Distribution(瑞利分布)
定义:若随机变量X 的概率密度为f(x)=xσ2e?x22σ2,x≥0
其中,σ>0 为常数,那么随机变量X 服从参数为σ 的瑞利分布,记为X?R(σ) .
??瑞利分布的分布函数为:F(x)=∫x0f(t)dt
??瑞利分布的期望与方差分别为:π2σ,4?π2σ2 - Cauchy Distribution(柯西分布)
定义:若随机变量X 的概率密度为f(x)=1πγ[1+(x?x0)2γ],x∈(?∞,+∞)
其中,x0位置参数,γ(γ>0) 尺度参数均为常数,那么随机变量X 服从参数为x0,γ 的柯西分布,记为X?C(x0,γ) .
??柯西分布的分布函数为:F(x)=∫x?∞f(t)dt=πarctan(x?x0γ)+12,x∈(?∞,+∞)
??柯西分布的期望与方差均不存在. - Weibull Distribution(韦伯分布)
??韦伯分布的期望与方差分别为:
定义:若随机变量X 的概率密度为f(x)=βη(xη)β?1e?(xη)β,x≥0
其中,η>0,β>0 均为常数,那么随机变量X 服从参数为η,β 的韦伯分布,记为X?W(η,β) .
??韦伯分布的分布函数为:F(x)=∫x?0f(t)dt=1?e?(xη)β
??韦伯分布的期望与方差分别为:ηΣ(1β+1),η2(Γ(2β+1)?Γ(1β+1)) .
??它的累积分布函数是扩展的指数分布函数,而且,Weibull distribution与很多分布都有关系。如,当β=1 ,它是指数分布;β=2 时,是Rayleigh Distribution(瑞利分布). - Laplacian Distribution(拉普拉斯分布)
定义:若随机变量X 的概率密度为f(x)=12be?|x?μ|b
其中,μ位置参数,b(b>0)尺度参数 均为常数,那么随机变量X 服从参数为μ,b 的拉普拉斯分布,记为X?L(μ,b) .
??概率密度函数如下图所示:
??拉普拉斯分布的分布函数为:F(x)=∫x?∞f(t)dt=12[1+sgn(x?u)e?|x?μ|b]
??拉普拉斯分布的期望与方差分别为:μ,2b2 .
版权声明:本文为博主原创文章,转载请标明地址。