数理统计基本概念
文章目录
- 数理统计基本概念
-
- 总体、样本和统计模型
- 统计量及其分布
-
- 统计量
- 顺序统计量
- 充分统计量
- 抽样分布
-
- 特征函数
- 三大分布
-
- χ2\chi^2χ2 分布
- ttt 分布
- FFF 分布
- 正态总体下常见统计量的分布
- 分位点
- 参考文献
总体、样本和统计模型
例 1 有一批产品,总数为 NNN。在 NNN 件产品中,有 NθN_{\theta}Nθ? 件次品,θ\thetaθ 为这批产品的次品率。θ\thetaθ 是我们感兴趣的参数,通常是未知的,需要利用统计方法对参数 θ\thetaθ 做出推断。
- 总体(Population):研究对象的全体,如例 1 中的这批产品就构成总体。通常用 X,YX,YX,Y 等表示。
- 个体:总体中的每个对象,如例 1 中的每个产品。
- 样本(Sample):X1,X2,?,XnX_1,X_2,\cdots,X_nX1?,X2?,?,Xn?,样本的实现称为样本的一组观察值(Observation or data),记为 x1,x2,?,xnx_1,x_2,\cdots,x_nx1?,x2?,?,xn?。
- 为了方便若不加特别声明,用 x1,x2,?,xnx_1,x_2,\cdots,x_nx1?,x2?,?,xn? 既表示样本,又表示岩本观察值。
- 样本空间(Sample Space):样本所有可能的取值构成的空间。
- 在统计中,对总体的推断,实际上是推断总体的分布,即确定总体的分布。为此,我们可以根据对总体了解程度,假设总体的分布属于某个分布族 {PΘ,θ∈Θ}\{P_{\Theta}, \theta\in\Theta\}{ PΘ?,θ∈Θ},至于其中哪一个分布最适合还得通过统计推断来确定,因此往往将 {PΘ,θ∈Θ}\{P_{\Theta}, \theta\in\Theta\}{ PΘ?,θ∈Θ} 称为总体分布族。其中,Θ\ThetaΘ 称为参数空间(Parameter Space)。
如例 1 中,总体分布族为 {PΘ,θ∈Θ}\{P_{\Theta}, \theta\in\Theta\}{
PΘ?,θ∈Θ},其中
Pθ(X=k)=(Nθk)(N?NθN?k)(Nn)P_{\theta}(X=k) = \frac{\begin{pmatrix}N\theta \\ k\end{pmatrix}\begin{pmatrix}N-N\theta \\ N-k\end{pmatrix}}{\begin{pmatrix}N \\ n\end{pmatrix}} Pθ?(X=k)=(Nn?)(Nθk?)(N?NθN?k?)?
kkk 满足
max?((n?N(1?θ)),0)≤k≤min?(Nθ,n)\max((n-N(1-\theta)),0) \leq k\leq \min(N\theta,n) max((n?N(1?θ)),0)≤k≤min(Nθ,n)
XXX 表示一次试验中抽取的 nnn 件产品的次品数,Θ={θ:0<θ<1}\Theta = \{\theta:0<\theta<1\}Θ={
θ:0<θ<1} 为参数空间。
统计量及其分布
设总体分布族为 {PΘ,θ∈Θ}\{P_{\Theta}, \theta\in\Theta\}{ PΘ?,θ∈Θ},我们仅知道总体的分布属于此分布族,但哪个最合适还需经过统计推断。推断总体的分布,实际上就是确定参数 θ\thetaθ,为此,需抽取样本。样本来源于总体,它应当包含参数的所有相关信息,但观察值呈现为一堆杂乱无章数据,故需对数据进行加工或压缩,提取有关参数的信息,而剔除无关的信息,这在统计上就反映为构造样本的已知函数,即统计量(Statistic)。
例 2 设总体 XXX 服从两点(正品和次品)分布,即 P(X=1)=θP(X = 1) = \thetaP(X=1)=θ,P(X=0)=1?θP(X = 0) = 1 - \thetaP(X=0)=1?θ,0<θ<10 < \theta < 10<θ<1。X1,X2,?,XnX_1,X_2,\cdots,X_nX1?,X2?,?,Xn? 是来自总体的样本,考虑样本的函数 T(X1,X2,?,Xn)=∑i=1nXiT(X_1,X_2,\cdots,X_n) = \sum_{i=1}^{n}X_iT(X1?,X2?,?,Xn?)=∑i=1n?Xi?,TTT 实际上表示样本中所含的次品个数,对不同观察值可能对应相同的 TTT 值,这样实际上是对样本起到了加工或压缩的作用。
统计量
定义 1 设 X1,X2,?,XnX_1,X_2,\cdots,X_nX1?,X2?,?,Xn? 是来自总体 XXX 的一个样本,T(X1,X2,?,Xn)T(X_1,X_2,\cdots,X_n)T(X1?,X2?,?,Xn?) 是样本的函数。如果 T(X1,X2,?,Xn)T(X_1,X_2,\cdots,X_n)T(X1?,X2?,?,Xn?) 不包含任何未知参数,则称其为总体 XXX 的统计量,简记为 TTT。
如例 2 中 $\sum_{i = 1}^n { {X_i}} $ 是统计量,因为它不含任何未知的参数。常用统计量包括:
- 样本均值(Sample Mean):
Xˉ=1n∑i=1nXi\bar X = \frac{1}{n}\sum\limits_{i = 1}^n { {X_i}} Xˉ=n1?i=1∑n?Xi?
- 样本方差(Sample Variance):
S2=1n?1∑i=1n(Xi?Xˉ)2{S^2} = \frac{1}{ {n - 1}}\sum\limits_{i = 1}^n { { {({X_i} - \bar X)}^2}} S2=n?11?i=1∑n?(Xi??Xˉ)2
- 样本标准差(Sample Standard Deviation):
S=1n?1∑i=1n(Xi?Xˉ)2S = \sqrt {\frac{1}{ {n - 1}}\sum\limits_{i = 1}^n { { {({X_i} - \bar X)}^2}} } S=n?11?i=1∑n?(Xi??Xˉ)2?
-
样本矩(Sample Moment):
- kkk 阶原点矩:
Ak=1n∑i=1nXik,k=1,2?{A_k} = \frac{1}{n}\sum\limits_{i = 1}^n {X_i^k} ,\;k = 1,2 \cdots Ak?=n1?i=1∑n?Xik?,k=1,2?
- kkk 阶中心矩:
Bk=1n∑i=1n(Xi?Xˉ)k,k=1,2?{B_k} = \frac{1}{n}\sum\limits_{i = 1}^n { { {({X_i} - \bar X)}^k}} ,\;k = 1,2 \cdots Bk?=n1?i=1∑n?(Xi??Xˉ)k,k=1,2?
顺序统计量
把样本 X1,X2,?,XnX_1,X_2,\cdots,X_nX1?,X2?,?,Xn? 的观察值 x1,x2,?,xnx_1,x_2,\cdots,x_nx1?,x2?,?,xn? 从小到大进行排列,记为 x(1),x(2),?,x(n){x_{(1)}},{x_{(2)}}, \cdots ,{x_{(n)}}x(1)?,x(2)?,?,x(n)?,满足
x(1)≤x(2)≤?≤x(n){x_{(1)}} \le {x_{(2)}} \le \cdots \le {x_{(n)}} x(1)?≤x(2)?≤?≤x(n)?
定义排在第 k(1≤k≤n)k~(1\leq k \leq n)k (1≤k≤n) 个位置的 x(k)x_{(k)}x(k)? 为随机变量 X(k){X_{(k)}}X(k)? 的观察值。显然
X(1)≤X(2)≤?≤X(n){X_{(1)}} \le {X_{(2)}} \le \cdots \le {X_{(n)}} X(1)?≤X(2)?≤?≤X(n)?
称 X(1),X(2),?,X(n){X_{(1)}},{X_{(2)}}, \cdots ,{X_{(n)}}X(1)?,X(2)?,?,X(n)? 为顺序统计量。
其中,有
X(1)=min?{X1,X2,?,Xn}{X_{(1)}} = \min \{ {X_1},{X_2}, \cdots ,{X_n}\} X(1)?=min{
X1?,X2?,?,Xn?}
X(n)=max?{X1,X2,?,Xn}{X_{(n)}} = \max \{ {X_1},{X_2}, \cdots ,{X_n}\} X(n)?=max{ X1?,X2?,?,Xn?}
对给定的 p(0<p<1)p\;(0 < p < 1)p(0<p<1),定义样本 ppp 分位数 mpm_pmp?,
-
npnpnp 不是整数时,
mp=λ([np+1])m_p = \lambda_{([np+1])} mp?=λ([np+1])? -
npnpnp 是整数时,
mp=12(X(np)+X(np+1)){m_p} = \frac{1}{2}({X_{(np)}} + {X_{(np + 1)}})\; mp?=21?(X(np)?+X(np+1)?)
充分统计量
统计量既然是对样本的加工或压缩,在这个过程中可能有损失有关参数的一部分信息,现在问题是在这个过程中是否存在某些统计量,既起到压缩作用,又不损失参数的信息,这样的统计量称为充分统计量。
例 3(续例 2) 设样本的观察值 x1,x2,?,xnx_1,x_2,\cdots,x_nx1?,x2?,?,xn?,则样本的联合分布函数为
P(X1=x1,X2=x2,?,Xn=xn)=θs(1?θ)n?sP({X_1} = {x_1},{X_2} = {x_2}, \cdots ,{X_n} = {x_n}) = {\theta ^s}{(1 - \theta )^{n - s}} P(X1?=x1?,X2?=x2?,?,Xn?=xn?)=θs(1?θ)n?s
其中 xi=0x_i = 0xi?=0 或 111,s=∑i=1nxis = \sum_{i = 1}^{n} x_is=∑i=1n?xi?。
定义 2 设总体分布族为 {PΘ,θ∈Θ}\{P_{\Theta}, \theta\in\Theta\}{ PΘ?,θ∈Θ},T(x)T(x)T(x) 是统计量。如果在给定 T(X)=tT(X) = tT(X)=t 的条件下,XXX 的条件分布与参数 θ\thetaθ 无关,则称统计量 T(X)T(X)T(X) 是参数 θ\thetaθ 的充分统计量(Sufficient Statistics)。
一般情况下,利用条件分布证明统计量的充分性是比较困难的。但存在证明充分性的一个充分必要准则,这是下面的因子分解定理(Factorization theorem)。
定理 1 设总体分布族为 {PΘ,θ∈Θ}\{P_{\Theta}, \theta\in\Theta\}{ PΘ?,θ∈Θ},T(x)T(x)T(x) 是充分统计量,当且仅当在一个定义在 I×ΘI \times \ThetaI×Θ 上的函数 g(t,θ)g(t,\theta)g(t,θ) 及定义在 Rn\mathbb{R}^nRn 上的函数 h(x)h(x)h(x) 使得
p(x,θ)=g(T(x),θ)h(x)p(x,\theta) = g(T(x),\theta)h(x) p(x,θ)=g(T(x),θ)h(x)
对所有的 x∈Rnx\in \mathbb{R}^nx∈Rn 都成立,其中 III 是 T(x)T(x)T(x) 的值域,p(x,θ)p(x,\theta)p(x,θ) 是样本的联合概率密度函数或分布律。
抽样分布
特征函数
设 XXX 为随机变量,称函数
?x(t)=E(eitX)\phi_x(t) = E(e^{itX}) ?x?(t)=E(eitX)
为 XXX 的特征函数。
常见分布的特征函数:
- 二项分布 B(n,p)B(n,p)B(n,p):
?(t)=(peit+(1?p))n\phi(t) = (pe^{it} + (1-p))^n ?(t)=(peit+(1?p))n
- Poisson 分布 P(λ)P(\lambda)P(λ):
?(t)=exp?{λ(eit?1}\phi(t) = \exp\{\lambda(e^{it - 1}\} ?(t)=exp{ λ(eit?1}
- 正态分布 N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2):
?(t)=exp?{iμt?12σ2t2}\phi(t) = \exp\{i\mu t - \frac{1}{2}\sigma^2t^2\} ?(t)=exp{ iμt?21?σ2t2}
特征函数的特征:
- 有界性:对于任意 t∈Rt\in\mathbb{R}t∈R,有 ∣?(t∣≤?(0)=1|\phi(t| \leq \phi(0) = 1∣?(t∣≤?(0)=1。
- 设 Y=aX+bY = aX +bY=aX+b,其中 a,ba,ba,b 为常数,则
?Y(t)=eibt?X(at)\phi_Y(t) = e^{ibt} \phi_X(at) ?Y?(t)=eibt?X?(at)
- 若 XXX 与 YYY 相互独立,则有
?X+Y(t)=?X(t)?Y(t)\phi_{X+Y} (t) = \phi_X(t) \phi_Y(t) ?X+Y?(t)=?X?(t)?Y?(t)
- 若 E(Xn)E(X^n)E(Xn) 存在,则 ?X(n)(t)\phi_X^{(n)}(t)?X(n)?(t) 存在,且
E(Xk)=i?k?(k)(0),k=1,2,?,nE(X^k) = i^{-k} \phi^{(k)} (0),k = 1,2,\cdots,n E(Xk)=i?k?(k)(0),k=1,2,?,n
- 特征函数与分布函数相互偎依确定
三大分布
χ2\chi^2χ2 分布
设随机变量 X1,X2,?,XnX_1,X_2,\cdots,X_nX1?,X2?,?,Xn? 相互独立且同服从标准正态分布 N(0,1)N(0,1)N(0,1),称随机变量
χ2=X12+X22+?+Xn2{\chi ^2} = X_1^2 + X_2^2 + \cdots + X_n^2 χ2=X12?+X22?+?+Xn2?
所服从的分布为自由度是 nnn 的 χ2\chi^2χ2 分布,记为 χ2?χ2(n)\chi^2 \sim \chi^2(n)χ2?χ2(n)。
定理 2 设简单样本 X1,X2,?,XnX_1,X_2,\cdots,X_nX1?,X2?,?,Xn? 来自正态总体 N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2),则有
χ2=1σ2∑i=1n(Xi?μ)2?χ2(n){\chi ^2} = \frac{1}{ { {\sigma ^2}}}\sum\limits_{i = 1}^n { { {({X_i} - \mu )}^2}} \sim \chi^2(n) χ2=σ21?i=1∑n?(Xi??μ)2?χ2(n)
定理 3 设 X?χ2(n)X \sim \chi^2(n)X?χ2(n),则
- XXX 的特征函数为
?(t)=EeitX=(1?2it)?n2\phi(t) = E e^{itX} = (1-2it)^{-\frac{n}{2}} ?(t)=EeitX=(1?2it)?2n?
- E(X)=n,D(X)=2nE(X) = n, D(X) = 2nE(X)=n,D(X)=2n
定理 4 设 X1?χ2(n1)X_1 \sim \chi^2(n_1)X1??χ2(n1?),X2?χ2(n2)X_2 \sim \chi^2(n_2)X2??χ2(n2?),且相互独立,则 X1+X2?χ2(n1+n2)X_1+X_2\sim\chi^2(n_1+n_2)X1?+X2??χ2(n1?+n2?)。
ttt 分布
设随机变量 X?N(0,1)X\sim N(0,1)X?N(0,1),Y?χ2(n)Y\sim \chi^2(n)Y?χ2(n),且 XXX 与 YYY 相互独立,则称随机变量
T=XY/NT = \frac{X}{\sqrt{Y/N}} T=Y/N?X?
所服从的分布为自由度为 nnn 的 ttt 分布,记为 T?t(n)T \sim t(n)T?t(n)。
FFF 分布
设随机变量 X?χ2(n1)X\sim \chi^2(n_1)X?χ2(n1?),Y?χ2(n2)Y\sim\chi^2(n_2)Y?χ2(n2?),且 XXX 与 YYY 相互独立,则称随机变量
F=X/n1Y/n2F = \frac{X/n_1}{Y/n_2} F=Y/n2?X/n1??
所服从的分布为自由度为 n1,n2n_1,n_2n1?,n2? 的 FFF 分布,记为 F?F(n1,n2)F\sim F(n_1,n_2)F?F(n1?,n2?)。
正态总体下常见统计量的分布
定理 5 设 X1,X2,?,XnX_1,X_2,\cdots,X_nX1?,X2?,?,Xn? 是来自正态总体 N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2) 的一个简单样本,AAA 是 p×np \times np×n 阶矩阵,则
KaTeX parse error: Unknown column alignment: * at position 28: …{\begin{array}{*?{20}{c}} { {Y_1}…
其中,1=(1,1,?,1)T\mathbf{1} = (1,1,\cdots,1)^T1=(1,1,?,1)T。
定理 6 设 X1,X2,?,XnX_1,X_2,\cdots,X_nX1?,X2?,?,Xn? 是来自正态总体 N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2) 的一个简单样本,则
- Xˉ?N(μ,σ2n)\bar{X} \sim N(\mu,\frac{\sigma^2}{n})Xˉ?N(μ,nσ2?)
- Xˉ\bar{X}Xˉ 与 S2S^2S2 相互独立
- (n?1)S2σ2?χ2(n?1)\frac{(n - 1)S^2}{\sigma^2}\sim \chi^2(n - 1)σ2(n?1)S2??χ2(n?1)
定理 7 设 X1,X2,?,XnX_1,X_2,\cdots,X_nX1?,X2?,?,Xn? 是来自正态总体 N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2) 的一个简单样本,则
Xˉ?μS/n?t(n?1)\frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t(n-1) S/n?Xˉ?μ??t(n?1)
定理 8 设 X1,X2,?,XnX_1,X_2,\cdots,X_nX1?,X2?,?,Xn? 和 Y1,Y2,?,YnY_1,Y_2,\cdots,Y_nY1?,Y2?,?,Yn? 是来自正态总体 N(μ1,σ2)N(\mu_1,\sigma^2)N(μ1?,σ2) 和 N(μ2,σ2)N(\mu_2,\sigma^2)N(μ2?,σ2) 的两个简单样本,且两样本独立,则
T=(Xˉ?Yˉ)?(μ1?μ2)Sw1n1+1n2?t(n1+n2?2)T = \frac{ {(\bar X - \bar Y) - ({\mu _1} - {\mu _2})}}{ { {S_w}\sqrt {\frac{1}{ { {n_1}}} + \frac{1}{ { {n_2}}}} }} \sim t(n_1+n_2-2) T=Sw?n1?1?+n2?1??(Xˉ?Yˉ)?(μ1??μ2?)??t(n1?+n2??2)
其中,$\bar X = \frac{1}{ { {n_1}}}\sum_{i = 1}^{ {n_1}} { {X_i}} ,,,\bar Y = \frac{1}{ { {n_2}}}\sum_{i = 1}^{ {n_2}} { {Y_i}}$,
S12=1n1?1∑i=1n1(Xi?Xˉ)2S_1^2 = \frac{1}{ { {n_1} - 1}}\sum\limits_{i = 1}^{ {n_1}} { { {({X_i} - \bar X)}^2}} S12?=n1??11?i=1∑n1??(Xi??Xˉ)2S22=1n2?1∑i=1n2(Yi?Yˉ)2S_2^2 = \frac{1}{ { {n_2} - 1}}\sum\limits_{i = 1}^{ {n_2}} { { {({Y_i} - \bar Y)}^2}} S22?=n2??11?i=1∑n2??(Yi??Yˉ)2
Sw2=(n1?1)S12+(n2?1)S22n1+n2?2S_w^2 = \frac{ {({n_1} - 1)S_1^2 + ({n_2} - 1)S_2^2}}{ { {n_1} + {n_2} - 2}} Sw2?=n1?+n2??2(n1??1)S12?+(n2??1)S22??
定理 9 设 X1,X2,?,XnX_1,X_2,\cdots,X_nX1?,X2?,?,Xn? 和 Y1,Y2,?,YnY_1,Y_2,\cdots,Y_nY1?,Y2?,?,Yn? 是来自正态总体 N(μ1,σ2)N(\mu_1,\sigma^2)N(μ1?,σ2) 和 N(μ2,σ2)N(\mu_2,\sigma^2)N(μ2?,σ2) 的两个简单样本,且两样本独立,则
F=S12/σ12S22/σ22?F(n1?1,n2?1)F = \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F(n_1-1,n_2-1) F=S22?/σ22?S12?/σ12???F(n1??1,n2??1)
定理 10 设随机变量 X1,X2,?,XnX_1,X_2,\cdots,X_nX1?,X2?,?,Xn? 相互独立且同服从正态分布 N(0,1)N(0,1)N(0,1),AAA 为实对称矩阵。令 X=(X1,X2,?,Xn)′X = (X_1,X_2,\cdots,X_n)'X=(X1?,X2?,?,Xn?)′,则二次型
Y=X′AX?χ2(p)Y = X'AX\sim \chi^2(p) Y=X′AX?χ2(p)
的充分必要条件是 A2=AA^2 = AA2=A (幂等阵),且 p=rank(A)p = \mathrm{rank}(A)p=rank(A)。
分位点
定义 设随机变量 XXX 的分布函数为 F(x)F(x)F(x),对任意给定的实数 p(0<p<1)p(0<p<1)p(0<p<1),若存在 xpx_pxp? 使得
P(X≤xp)=F(xp)=pP(X\leq x_p) = F(x_p) = p P(X≤xp?)=F(xp?)=p
成立,则称 xpx_pxp? 为此概率分布的 ppp 分位点。
常见分布分位点记号:
-
标准正态分布 N(0,1)N(0,1)N(0,1):zpz_pzp? 表示,即 P(X≤zp)=pP(X \leq z_p) = pP(X≤zp?)=p,由对称性有 z1?p=?zpz_{1-p} = -z_pz1?p?=?zp?
-
χ2(n)\chi^2(n)χ2(n) 分布:用 χp2(n)\chi_p^2(n)χp2?(n) 表示 ppp 分位点,即 P(χ2≤χp2(n))=pP(\chi^2 \leq \chi^2_p(n)) = pP(χ2≤χp2?(n))=p
-
t(n)t(n)t(n) 分布:用 tp(n)t_p(n)tp?(n) 表示,即 P(T≤tp(n))=pP(T\leq t_p(n)) = pP(T≤tp?(n))=p
-
F(n1,n2)F(n_1,n_2)F(n1?,n2?) 分布:用 Fp(n1,n2)F_p(n_1,n_2)Fp?(n1?,n2?) 表示,即 P{F≤Fp(n1,n2)}=pP\{ F \le {F_p}({n_1},{n_2})\} = pP{ F≤Fp?(n1?,n2?)}=p
Fp(n2,n1)=1F1?p(n1,n2){F_p}({n_2},{n_1}) = \frac{1}{ { {F_{1 - p}}({n_1},{n_2})}} Fp?(n2?,n1?)=F1?p?(n1?,n2?)1?
参考文献
[1] 孙海燕、周梦等,数理统计,2016。