假设检验
-
-
- 8.2.2 Bayes检验
- 8.2.3 并-交检验与交-并检验
- 8.3 检验的评价方法
-
- 8.3.1 错误概率与功效函数
- 8.3.2 最大功效检验
- 8.3.3 并-交检验与交-并检验的真是水平
- 8.3.4 p-值
- 8.3.5 损失函数最优性
-
8.2.2 Bayes检验
在一个建设检验问题中,后验分布可以用来计算H0H_0H0?和H1H_1H1?为真的概率。记住,π(θ∣x)\pi (\theta| \mathbf x)π(θ∣x)是一个关于随机变量的概率分布。因此,后验概率P(θ∈Θ0∣x)=P(H0为真∣x)P(\theta \in \Theta_0|\mathbf x) = P(H_0为真|\mathbf x)P(θ∈Θ0?∣x)=P(H0?为真∣x)与P(θ∈Θ0c∣x)=P(H1为真∣x)P(\theta \in \Theta_0^c|\mathbf x) = P(H_1为真|\mathbf x)P(θ∈Θ0c?∣x)=P(H1?为真∣x)都可以计算出来。
Bayes假设检验利用后验分布进行假设检验,一种可能的方法是:如果P(θ∈Θ0∣x)?P(θ∈Θ0c∣x)P(\theta \in \Theta_0|\mathbf x)\geqslant P(\theta \in \Theta_0^c|\mathbf x)P(θ∈Θ0?∣x)?P(θ∈Θ0c?∣x)就接受H0H_0H0?。用以假设检验的术语描述就是,检验统计量即样本的一个函数,取P(θ∈Θ0c∣x)P(\theta \in \Theta_0^c|\mathbf x)P(θ∈Θ0c?∣x),而拒绝域就是{x:P(θ∈Θ0c∣x)>1/2}\left \{ x:P(\theta \in \Theta_0^c|\mathbf x)>1/2 \right \}{ x:P(θ∈Θ0c?∣x)>1/2}. 另外一种利用后验分布的方法是,如果Bayes假设检验者希望防止错误地拒绝H0H_0H0?,那么只有在P(θ∈Θ0c∣x)P(\theta \in \Theta_0^c|\mathbf x)P(θ∈Θ0c?∣x)超多某个大的数,例如0.99的时候才可能拒绝H0H_0H0?.
8.2.3 并-交检验与交-并检验
在某些情况下,对复杂原假设的检验能够从对较简单的原假设的建业得到。我们讨论两种有关的方法:
用并-交方法构造检验,可能在原假设被方便地表示成一个交集时有用,设
H0:θ∈?γ∈ΓΘγ\begin{aligned} H_0: \theta \in \bigcap_{\gamma \in \Gamma}\Theta_\gamma \end{aligned}H0?:θ∈γ∈Γ??Θγ??
其中Γ\GammaΓ是一个任意的指标集合,可能有限或无限,取决于问题。假定有了关于每一个检验问题H0γ:θ∈Θγvs.H1γ:θ∈ΘγcH_{0\gamma}:\theta \in \Theta_\gamma \ \ \ vs.\ \ \ H_{1\gamma}:\theta \in \Theta_\gamma^cH0γ?:θ∈Θγ? vs. H1γ?:θ∈Θγc?的检验,H0γH_{0\gamma}H0γ?的拒绝域是{x:Tγ(x)∈Rγ}\left \{ x:T_\gamma(\mathbf x)\in R_{\gamma} \right \}{ x:Tγ?(x)∈Rγ?},则关于并-交检验的拒绝域就是
?γ∈Γ{x:Tγ(x)∈Rγ}\begin{aligned} \bigcup_{\gamma\in\Gamma}\left \{ x:T_\gamma(\mathbf x)\in R_{\gamma} \right \} \end{aligned}γ∈Γ??{ x:Tγ?(x)∈Rγ?}?
这样做的原理是简单的。只有每一个H0γH_{0\gamma}H0γ?都是真,H0H_0H0?才是真。假如任何一个假设H0γH_{0\gamma}H0γ?被拒绝了,H0H_0H0?必须也被拒绝。
若每一个个别检验都具有{x:Tγ(x)>c}\left \{ x:T_\gamma(\mathbf x)>c\right \}{ x:Tγ?(x)>c}形式的拒绝域,其中ccc不依赖于γ\gammaγ. 这时,拒绝域可以表示成
?γ∈Γ{x:Tγ(x)>c}={x:supγ∈ΓTγ(x)>c}\begin{aligned} \bigcup_{\gamma\in\Gamma}\left \{ x:T_\gamma(\mathbf x)>c\right \} = \left \{ x:\underset{\gamma \in \Gamma}{sup}\ T_\gamma(\mathbf x)>c\right \} \end{aligned}γ∈Γ??{ x:Tγ?(x)>c}={ x:γ∈Γsup? Tγ?(x)>c}?
这样,关于H0H_0H0?的检验统计量就是T(x)=supγ∈ΓTγ(x)T(\mathbf x)=\underset{\gamma \in \Gamma}{sup}T_\gamma(\mathbf x)T(x)=γ∈Γsup?Tγ?(x)
用并-交方法构造检验,在原假设被方便地表示成一个交集时时有用的。另外一种方法,即交-并方法,则当原假设被方便地表示成一个并集时可能是有用的。设要检验原假设
H0:θ∈?γ∈ΓΘγ\begin{aligned} H_0: \theta \in \bigcup_{\gamma \in \Gamma}\Theta_\gamma \end{aligned}H0?:θ∈γ∈Γ??Θγ??
拒绝域为
?γ∈Γ{x:Tγ(x)∈Rγ}\begin{aligned} \bigcap_{\gamma\in\Gamma}\left \{ x:T_\gamma(\mathbf x)\in R_{\gamma} \right \} \end{aligned}γ∈Γ??{
x:Tγ?(x)∈Rγ?}?
若每一个个别检验都具有{x:Tγ(x)>c}\left \{ x:T_\gamma(\mathbf x)>c\right \}{ x:Tγ?(x)>c}形式的拒绝域,其中ccc不依赖于γ\gammaγ. 这时,拒绝域可以表示成
?γ∈Γ{x:Tγ(x)>c}={x:infγ∈ΓTγ(x)>c}\begin{aligned} \bigcap_{\gamma\in\Gamma}\left \{ x:T_\gamma(\mathbf x)>c\right \} = \left \{ x:\underset{\gamma \in \Gamma}{inf}\ T_\gamma(\mathbf x)>c\right \} \end{aligned}γ∈Γ??{ x:Tγ?(x)>c}={ x:γ∈Γinf? Tγ?(x)>c}?
8.3 检验的评价方法
8.3.1 错误概率与功效函数
如果θ∈Θ0\theta\in\Theta_0θ∈Θ0?但是假设检验不正确的判定拒绝H0H_0H0?,于是检验就犯了第一类错误,其概率为α=P(X∈R∣H0)\alpha = P(\mathbf X\in R|H_0)α=P(X∈R∣H0?)
另一方面,如果θ∈Θ0c\theta\in\Theta_0^cθ∈Θ0c?但是假设检验不正确的判定接受H0H_0H0?,于是检验就犯了第二类错误,其概率为β=P(X∈R?∣H1)\beta = P(\mathbf X\in \overline R|H_1)β=P(X∈R∣H1?)
定义8.3.1 一个拒绝域为RRR的假设检验的功效函数(power function)是由g(θ)=Pθ(X∈R)g(\theta)=P_{\theta}(\mathbf X \in R)g(θ)=Pθ?(X∈R)所定义的函数
理想的功效函数对于所有θ∈Θ0\theta\in\Theta_0θ∈Θ0?函数值是0,而对于所有θ∈Θ0c\theta\in\Theta_0^cθ∈Θ0c?函数值是1. 这种理想不可能达到。一个好的检验的功效函数在大多数的θ∈Θ0c\theta\in\Theta_0^cθ∈Θ0c?上接近于1而在大多数的θ∈Θ0\theta\in\Theta_0θ∈Θ0?上接近于0.
有,
g(θ)={α,θ∈Θ0,1?β,θ∈Θ0c.\begin{aligned}g(\theta)=\left\{\begin{matrix} \alpha, & \theta \in \Theta_0,\\ 1-\beta, & \theta \in \Theta_0^c. \end{matrix}\right.\end{aligned}g(θ)={ α,1?β,?θ∈Θ0?,θ∈Θ0c?.??
一个功效函数依赖于样本量nnn,这是有代表性的。如果nnn可以由实验者选择,对功效函数进行考虑,就能够帮助其决定一个试验中取多大的样本量适合。也就是我们常说的在控制犯第一类错误或第二错误概率的情况下求样本量。
定义8.3.9 一个功效函数为β(θ)\beta(\theta)β(θ)的检验是无偏的,如果对于每一个θ′∈Θ0c\theta'\in\Theta_0^cθ′∈Θ0c?和θ′′∈Θ0\theta''\in\Theta_0θ′′∈Θ0?都有β(θ′)?β(θ′′)\beta(\theta')\geqslant \beta(\theta'')β(θ′)?β(θ′′)
简单的说定义8.3.9表述额这样的一个性质:一个检验在θ∈Θ0c\theta\in\Theta_0^cθ∈Θ0c?时比θ∈Θ0\theta\in\Theta_0θ∈Θ0?时更倾向于拒绝H0H_0H0?
8.3.2 最大功效检验
我们在前面描述了几个假设检验类,这些类中有的控制犯第一类错误的概率,如水平为α\alphaα的检验对所有θ∈Θ0\theta\in\Theta_0θ∈Θ0?,犯第一类错误的概率至多为α\alphaα. 在这样一个类中,一个好检验犯第二类错误的概率也应当小,即当θ∈Θ0c\theta\in\Theta_0^cθ∈Θ0c?时它的功效函数比较大。如果一个检验犯第一类错误的概率比这类中所有其他检验更小,它理应是这类中的最优检验,下面给出一个形式化的定义:
定义8.3.11 设C\mathcal CC是一个关于H0:θ∈Θ0vs.H1:θ∈Θ0cH_0:\theta\in\Theta_0 \ \ \ vs.\ \ \ H_1:\theta\in\Theta_0^cH0?:θ∈Θ0? vs. H1?:θ∈Θ0c?的检验类。C\mathcal CC中一个功效函数为β(θ)\beta(\theta)β(θ)的检验是一个一致最大功效C\mathcal CC类检验(uniformly most powerful(UMP)class C\mathcal CC test),如果对于每个θ∈Θ0c\theta\in\Theta_0^cθ∈Θ0c?与每个C\mathcal CC的检验功效函数β′(θ)\beta'(\theta)β′(θ),都有β(θ)?β′(θ)\beta(\theta)\geqslant\beta'(\theta)β(θ)?β′(θ)
定义8.3.11描述的检验就叫做一个UMP水平为α\alphaα的检验。定义8.3.11的要求条件过强以至于在很多实际问题中UMP检验不存在。但是,在有UMP检验的问题中,一个UMP检验理应被考虑为该类中的最优检验。这样,我们希望如果UMP检验存在,就能够识别他们。下面的著名定理清楚地描述了在原假设和备择假设都只含有一个关于样本的概率分布的情况(即H0H_0H0?和H1H_1H1?都是简单假设),那些检验是UMP水平为α\alphaα的检验。
定理8.3.12(奈曼-皮尔逊引理) 考虑检验H0:θ=θ0vs.H1:θ=θ1H_0:\theta=\theta_0 \ \ \ vs.\ \ \ H_1:\theta = \theta_1H0?:θ=θ0? vs. H1?:θ=θ1?,其中对应于θi\theta_iθi?的概率密度函数或者概率质量函数是f(x∣θi)i=0,1f(x|\theta_i)i=0,1f(x∣θi?)i=0,1,利用一个拒绝域为RRR的检验,RRR满足对某个k?0k\geqslant0k?0
若f(x∣θ1)>kf(x∣θ0),则x∈R(8.3.1)\begin{aligned}若f(\mathbf x|\theta_1)>kf(\mathbf x|\theta_0)&,& 则\mathbf x\in R \tag{8.3.1} \end{aligned}若f(x∣θ1?)>kf(x∣θ0?)?,?则x∈R?(8.3.1)
和
若f(x∣θ1)<kf(x∣θ0),则x∈Rc(8.3.1)\begin{aligned}若f(\mathbf x|\theta_1)<kf(\mathbf x|\theta_0)&,& 则\mathbf x\in R^c\tag{8.3.1}\end{aligned}若f(x∣θ1?)<kf(x∣θ0?)?,?则x∈Rc?(8.3.1)
而且
α=Pθ0(X∈R)(8.3.2)\begin{aligned}\alpha = P_{\theta_0}(\mathbf X\in R)\tag{8.3.2}\end{aligned}α=Pθ0??(X∈R)?(8.3.2)
a. (充分性)任意满足条件(8.3.1)和条件(8.3.2)的检验,是一个UMP水平为α\alphaα的检验。
b. (必要性)如果存在一个满足条件(8.3.1)和条件(8.3.2)的检验,其中k>0k>0k>0,则每一个UMP水平为α\alphaα的检验是真实水平为α\alphaα的检验,而且每一个UMP水平为α\alphaα的检验必满足条件(8.3.1)除去一个使Pθ0(X∈A)=Pθ1(X∈A)=0P_{\theta_0}(\mathbf X \in A)=P_{\theta_1}(\mathbf X \in A)=0Pθ0??(X∈A)=Pθ1??(X∈A)=0的集合AAA上可能不满足。
推论8.3.13 考虑定理8.3.12中提出的假设问题。设T(X)T(\mathbf X)T(X)是一个关于θ\thetaθ的充分统计量,g(t∣θi)g(t|\theta_i)g(t∣θi?)是TTT的相应于θi\theta_iθi?的概率密度函数或者概率质量函数,i=0,1i=0,1i=0,1. 则任何一个基于TTT拒绝域是SSS(TTT的样本空间的一个子集)的检验,如果满足对某个k?0k\geqslant0k?0
若g(x∣θ1)>kg(x∣θ0),则t∈S(8.3.4)\begin{aligned}若g(\mathbf x|\theta_1)>kg(\mathbf x|\theta_0)&,& 则\mathbf t\in S\tag{8.3.4} \end{aligned}若g(x∣θ1?)>kg(x∣θ0?)?,?则t∈S?(8.3.4)
和
若g(x∣θ1)<kg(x∣θ0),则t∈Sc(8.3.4)\begin{aligned}若g(\mathbf x|\theta_1)<kg(\mathbf x|\theta_0)&,& 则\mathbf t\in S^c\tag{8.3.4}\end{aligned}若g(x∣θ1?)<kg(x∣θ0?)?,?则t∈Sc?(8.3.4)
而且
α=Pθ0(T∈S)(8.3.5)\begin{aligned}\alpha = P_{\theta_0}(T\in S)\tag{8.3.5}\end{aligned}α=Pθ0??(T∈S)?(8.3.5)
当我们导出一个满足不等式(8.3.1)或不等式(8.3.4)的检验,从而是一个UMP水平为α\alphaα的检验时,通常易于把不等式写成如f(x∣θ1)f(x∣θ0)>k\frac{f(\mathbf x|\theta_1)}{f(\mathbf x|\theta_0)}>kf(x∣θ0?)f(x∣θ1?)?>k的形式。
有很大一类有UMP水平为α\alphaα的检验问题牵涉到单侧建设和具有单调似然比性质的概率密度函数或概率质量函数。
定义8.3.16 称一元随机变量TTT的概率密度函数或概率质量函数的族{g(t∣θ):θ∈Θ}\left \{ g(t|\theta):\ \theta\in\Theta \right \}{ g(t∣θ): θ∈Θ}关于实值参数θ\thetaθ具有单调似然比,如果对于每一个θ2>θ1\theta_2>\theta_1θ2?>θ1?,g(t∣θ2)/g(t∣θ1)g(t|\theta_2)/g(t|\theta_1)g(t∣θ2?)/g(t∣θ1?)在{t:g(t∣θ1)>0org(t∣θ2)>0}\left \{ t:g(t|\theta1)>0 \ or \ g(t|\theta_2)>0 \right \}{ t:g(t∣θ1)>0 or g(t∣θ2?)>0}上都是ttt的单调函数。注意如果0<c0<c0<c定义c/0c/0c/0为∞\infty∞.
定理8.3.17(Karlin-Rubin) 考虑检验H0:θ?θ0vs.H1:θ>θ0H_0:\theta\leqslant\theta_0 \ \ \ \ vs.\ \ \ \ H_1:\theta >\theta_0H0?:θ?θ0? vs. H1?:θ>θ0?. 设TTT是一个关于θ\thetaθ的充分统计量并且TTT的概率密度函数或概率质量函数的族{g(t∣θ):θ∈Θ}\left \{ g(t|\theta):\ \theta\in\Theta \right \}{ g(t∣θ): θ∈Θ}关于θ\thetaθ具有MLR. 则对于任何t0t_0t0?,“当且仅当T>t0T>t_0T>t0?时拒绝H0H_0H0?” 的检验是一个UMP水平为α\alphaα的检验,其中α=Pθ0(T>t0)\alpha = P_{\theta_0}(T>t_0)α=Pθ0??(T>t0?)
同理,“拒绝H0:θ?θ0H_0:\theta \geqslant\theta_0H0?:θ?θ0?而选择H1:θ<θ0H_1:\theta<\theta_0H1?:θ<θ0?当且仅当T<t0T<t_0T<t0?” 的检验是一个UMP水平为α=Pθ0(T<t0)\alpha = P_{\theta_0}(T<t_0)α=Pθ0??(T<t0?)的检验
虽然对于大多数试验者来说,如果知道UMP水平为α\alphaα的检验存在,则愿意选择用它,遗憾的是对很多问题,不存在UMP水平为α\alphaα的检验,因为水平为α\alphaα的检验类太大了以至于没有一个检验在功效上对其他所有检验占优势,从而UMP不存在。
在这种情况,一个通用的继续寻找好检验的方法就是考虑水平为α\alphaα的检验类的某个子集,并在这个子集中尝试求出一个UMP检验。下面我们将阐述如何把注意力限制在由无偏检验组成的子集上以至能够求出一个最佳检验。
首先我们考虑一个栗子,它说明了一种典型情况,在这种情况下不存在一个UMP水平为α\alphaα的检验。
8.3.3 并-交检验与交-并检验的真是水平
因为它们是由简单的方法构建出来的,并-交检验(UIT)与交-并检验(IUT)的真实水平经常能够以某个其他检验的真是水平为上界。
先考虑UIT. 我们是检验一个这种形式的原假设: H0:θ∈Θ0H_0: \theta \in \Theta_0H0?:θ∈Θ0?,其中Θ0=?γ∈ΓΘγ\Theta_0 = \underset{\gamma \in \Gamma}{\bigcap}\Theta_\gammaΘ0?=γ∈Γ??Θγ?. 为了方便讨论,设λγ(x)\lambda_{\gamma}(\mathbf x)λγ?(x)是关于检验H0γ:θ∈Θγvs.H1γ:θ∈ΘγcH_{0\gamma}: \theta \in \Theta_{\gamma }\ \ \ \ vs.\ \ \ \ H_{1\gamma}: \theta \in \Theta_{\gamma }^cH0γ?:θ∈Θγ? vs. H1γ?:θ∈Θγc?的LRT统计量,并设λ(x)\lambda(\mathbf x)λ(x)是关于检验H0:θ∈Θ0vs.H1:θ∈Θ0cH_{0}: \theta \in \Theta_0 \ \ \ \ vs.\ \ \ \ H_{1}: \theta \in \Theta_{0}^cH0?:θ∈Θ0? vs. H1?:θ∈Θ0c?的LRT统计量。则我们有一下连接全面LRT和基于λγ(x)\lambda_{\gamma}(\mathbf x)λγ?(x)的UIT之间关系的定理。
定理8.3.21 考虑检验H0:θ∈Θ0vs.H1:θ∈Θ0cH_{0}: \theta \in \Theta_0 \ \ \ \ vs.\ \ \ \ H_{1}: \theta \in \Theta_{0}^cH0?:θ∈Θ0? vs. H1?:θ∈Θ0c?,其中Θ0=?γ∈ΓΘγ\Theta_0 = \underset{\gamma \in \Gamma}{\bigcap}\Theta_\gammaΘ0?=γ∈Γ??Θγ?,而λγ(x)\lambda_{\gamma}(\mathbf x)λγ?(x)由前面所定义。定义T=infγ∈Γλγ(x)T=\underset{\gamma\in\Gamma}{inf}\lambda_{\gamma}(\mathbf x)T=γ∈Γinf?λγ?(x)并且组成UIT,其拒绝域是
{x:对于某γ∈Γ,λγ(x)<c}={x:T(x)<c}\begin{aligned}\left \{ \mathbf x:对于某\gamma\in\Gamma, \lambda_{\gamma}(\mathbf x)<c\right \} = \left\{\mathbf x:T(\mathbf x)<c\right\}\end{aligned}{ x:对于某γ∈Γ,λγ?(x)<c}={ x:T(x)<c}?
又考虑通常的以{x:λ(x)<c}\left\{\mathbf x:\lambda(\mathbf x)<c\right\}{ x:λ(x)<c}为拒绝域的LRT,则
a. 对于每个x\mathbf xx,有T(x)?λ(x)T(\mathbf x)\geqslant\lambda(\mathbf x)T(x)?λ(x);
b. 若βT(θ)\beta_T(\theta)βT?(θ)和βλ(θ)\beta_\lambda(\theta)βλ?(θ)分别是依赖于TTT和λ\lambdaλ的检验的功效函数,则对于每一个θ∈Θ\theta\in\Thetaθ∈Θ,有βT(θ)?βλ(θ)\beta_T(\theta)\leqslant\beta_\lambda(\theta)βT?(θ)?βλ?(θ);
c. 如果此LRT是一个水平为α\alphaα的检验,则此UIT是一个水平为α\alphaα的检验。
在某些情况时,定理8.3.21中的T(x)=λ(x)T(\mathbf x)=\lambda(\mathbf x)T(x)=λ(x). 这时,由一个个单独LRT构建出来的UIT和全面LRT相同。
既然定义8.3.21中LRT一致地比UIT功效强,也许我们会问为什么要用UIT呢?一个理由是UIT对于每个θ∈Θ0\theta\in\Theta_0θ∈Θ0?,犯第一类错误的概率更小。此外,如果H0H_0H0?被拒绝,我们可能想考虑单独的检验H0γH_{0\gamma}H0γ?以了解为什么被拒绝。
现在我们研究IUT的真实水平。IUT的真实水平的一个简单的界涉及到用以定义IUT的单独的检验的真实水平。
定义8.3.23 设αγ\alpha_{\gamma}αγ?是以RγR_{\gamma}Rγ?为拒绝域的检验H0γH_{0\gamma}H0γ?的真实水平,则以R=?γ∈ΓRγR=\underset{\gamma\in\Gamma}{\bigcap}R_{\gamma}R=γ∈Γ??Rγ?为拒绝域的IUT是一个水平为α=supγ∈Γαγ\alpha=\underset{\gamma\in\Gamma}{sup}\alpha_{\gamma}α=γ∈Γsup?αγ?的检验。
RγR_{\gamma}Rγ?的典型取法是使αγ=α\alpha_{\gamma}=\alphaαγ?=α对于所有γ∈Γ\gamma\in\Gammaγ∈Γ都成立。在这一情形下,由定理8.3.23知,作为结果的IUT是一个水平为α\alphaα的检验。
定理8.2.23给IUT的真是水平提供了一个上界,这比定理8.3.21略微更有用一些,后者给UIT的真实水平提供了一个上界。定理8.3.21只能应用于似然比检验构建的UIT,而定理8.3.23可以应用于任意的IUT.
定理8.3.21里的界是LRT的真实水平,在一个复杂的问题中,可能难以计算。然而定理8.3.23,不需要用其LRT获得上界,任何一个具有已知真实水平αγ\alpha_{\gamma}αγ?的对H0γH_{0\gamma}H0γ?的检验都可用,并且IUT的真实水平的上界就根据已知的αγ,γ∈Γ\alpha_{\gamma},\gamma\in\Gammaαγ?,γ∈Γ给出。
定理8.3.23中的IUT是一个水平为α\alphaα的检验,但是这个IUT的真实水平可能远小于α\alphaα,这个UIT可能是非常保守的。下面的定理给出了这个IUT的真实水平严格等于α\alphaα而且这个IUT不是太过保守的条件。
定理8.3.24 考虑检验H0:θ∈?j=1kΘjH_0:\theta\in\bigcup_{j=1}^{k}\Theta_jH0?:θ∈?j=1k?Θj?其中kkk是一个有限的正整数。对于每一个j=1,?,kj=1,\cdots,kj=1,?,k,设RjR_jRj?是H0jH_{0j}H0j?的一个水平为α\alphaα检验的拒绝域。若有某个i=1,?,ki=1,\cdots,ki=1,?,k,存在一列参数点θl∈Θi,l=1,2,?\theta_l\in\Theta_i, l=1, 2, \cdotsθl?∈Θi?,l=1,2,?,以使得
i. liml→∞Pθl(X∈Ri)=α\underset{l\rightarrow\infty}{lim}P_{\theta_l}(\mathbf X\in R_i) =\alphal→∞lim?Pθl??(X∈Ri?)=α,
ii. 对于每一个j=1,?,k,j≠i,liml→∞Pθl(X∈Rj)=1j=1,\cdots,k, j\neq i, \underset{l\rightarrow\infty}{lim}P_{\theta_l}(\mathbf X\in R_j) = 1j=1,?,k,j??=i,l→∞lim?Pθl??(X∈Rj?)=1
则以R=?j=1kRjR=\bigcap_{j=1}^{k}R_jR=?j=1k?Rj?作为拒绝域的IUT是一个真实水平为α\alphaα的检验。
8.3.4 p-值
做完假设检验之后,必须用具有统计意义的方式报告出结论。一种报告假设检验结果的方法是报告检验所用的真实水平α\alphaα,以及拒绝或者接受H0H_0H0?的判决。如果α\alphaα大,判拒绝H0H_0H0?就不是很令人信服了,因为检验做出的这个判决不正确的概率也大。另一种报告假设检验结果的方法是报告一种叫做p-值的统计量的值。
定义8.3.26(p-值) p(X)p(\mathbf X)p(X)是一个满足对每一个样本点x\mathbf xx,都有0?p(x)?10\leqslant p(\mathbf x)\leqslant 10?p(x)?1,如果 p(X)p(\mathbf X)p(X)的值小则可作为H1H_1H1?为真的证据。一个p-值称为有效的,如果对于每一个θ∈Θ0\theta\in\Theta_0θ∈Θ0?和每一个0?α?10\leqslant\alpha\leqslant 10?α?1,都有
Pθ(p(X)?α)?α(8.3.8)\begin{aligned}P_{\theta}( p(\mathbf X)\leqslant\alpha)\leqslant\alpha\tag{8.3.8}\end{aligned}Pθ?(p(X)?α)?α?(8.3.8)
如果p(X)p(\mathbf X)p(X)是一个有效的p-值,基于 p(X)p(\mathbf X)p(X)易构建出一个水平为α\alphaα的检验。根据(8.3.8),当且仅当 p(X)?αp(\mathbf X)\leqslant\alphap(X)?α时拒绝H0H_0H0?的检验就是一个水平为α\alphaα的检验。
通过p-值报告检验结果的一个优点是每位读者能够选择他认为适当的α\alphaα,然后那报告的p(x)p(x)p(x)去和α\alphaα比较,并且知道这些数据导致接受还是拒绝H0H_0H0?. 因此,p-值以一个更连续的尺度报告出一个检验的结论,它胜于仅分成两种决策结果的接受H0H_0H0?或拒绝H0H_0H0?.
最普通的定义一个p-值的方法由定理8.3.27给出。
定理8.3.27 设W(X)W(\mathbf X)W(X)是这样一个检验统计量,如WWW的值大则可作为H1H_1H1?为真的依据。对于每个样本点x\mathbf xx,定义
p(x)=supθ∈Θ0Pθ(W(X)?W(x))(8.3.9)\begin{aligned}p(\mathbf x) = \underset{\theta\in\Theta_0}{sup}P_{\theta}(W(\mathbf X)\geqslant W(\mathbf x))\tag{8.3.9}\end{aligned}p(x)=θ∈Θ0?sup?Pθ?(W(X)?W(x))?(8.3.9)
则p(X)p(\mathbf X)p(X)是一个有效的p-值。
计算(8.3.9)中的上确界可能是困难的。下面两个例子说明的是不太困难的普通情况。第一个例子不需要上确界;第二个例子中,易于确定出达到上确界的θ\thetaθ的值。
令外一种可以用来替代(8.3.9)定义有效p-值的方法,涉及给定一个充分统计量时的条件概率。
设S(X)S(\mathbf X)S(X)是一个关于模型{f(x∣θ):θ∈Θ0}\left\{f(x|\theta):\theta\in\Theta_0\right\}{ f(x∣θ):θ∈Θ0?}的充分统计量。(为避免低功效检验,SSS仅关于原假设模型而不是全模型{f(x∣θ):θ∈Θ}\left\{f(x|\theta):\theta\in\Theta\right\}{ f(x∣θ):θ∈Θ}充分,这一点很重要)如果原假设为真,则给定条件S=sS=sS=s下X\mathbf XX的条件分布不依赖于θ\thetaθ. 仍设W(X)W(\mathbf X)W(X)表示一个检验统计量,它的值大给出H1H_1H1?为真的依据。那么,对于每个样本点x\mathbf xx,定义
p(x)=Pθ(W(X)?W(x)∣S=S(x))(8.3.10)\begin{aligned}p(\mathbf x) =P_{\theta}(W(\mathbf X)\geqslant W(\mathbf x)|S=S(\mathbf x))\tag{8.3.10}\end{aligned}p(x)=Pθ?(W(X)?W(x)∣S=S(x))?(8.3.10)
对于?α:0?α?1\forall\alpha: 0\leqslant\alpha\leqslant 1?α:0?α?1,P(p(X)?α∣S=s)?αP(p(\mathbf X)\leqslant\alpha|S=s)\leqslant\alphaP(p(X)?α∣S=s)?α
因此,对于?θ∈Θ0\forall\theta\in\Theta_0?θ∈Θ0?,无条件地我们有
Pθ(p(x)?α)=∑sP(p(x)?α∣S=s)Pθ(S=s)?∑sαPθ(S=s)?α\begin{aligned}P_{\theta}(p(\mathbf x)\leqslant\alpha)=\underset{s}{\sum}P(p(\mathbf x)\leqslant\alpha|S=s)P_{\theta}(S=s)\leqslant \underset{s}{\sum}\alpha P_{\theta}(S=s)\leqslant\alpha\end{aligned}Pθ?(p(x)?α)=s∑?P(p(x)?α∣S=s)Pθ?(S=s)?s∑?αPθ?(S=s)?α?
这样,由(8.3.10)定义的p(x)p(\mathbf x)p(x)是一个有效p-值。对于连续的SSS,求和可以换成求积分,但是这种方法通常用于离散的SSS.
8.3.5 损失函数最优性
如果使用判决分析的方法比较假设检验,那么我们就必须指明关于假设检验问题的行为空间和损失函数。
在一个假设检验问题中,只允许两个行为,接受H0H_0H0?或拒绝H0H_0H0?,这两个行为可以分别记作a0a_0a0?和a1a_1a1?. 假设检验的行为空间是两点集A={a0,a1}A=\left\{a_0, a_1\right\}A={ a0?,a1?},一个判决法则δ(x)\delta(\mathbf x)δ(x)(一个假设检验)是X\mathbf XX上的一个只取a0a_0a0?和a1a_1a1?两个值的函数。集合{x:δ(x)=a1}\left\{\mathbf x: \delta(\mathbf x)=a1\right\}{ x:δ(x)=a1}是检验的拒绝域。
设一个假设检验问题的损失函数为L(θ,a)L(\theta, a)L(θ,a),L(θ,a0)L(\theta, a_0)L(θ,a0?)是当作出接受H0H_0H0?的判决时,关于不同θ\thetaθ所招致的损失,而L(θ,a1)L(\theta, a_1)L(θ,a1?)是当作出拒绝H0H_0H0?的判决时,关于不同θ\thetaθ所招致的损失。
在一个假设检验问题中最简单的一种损失函数叫做0-1损失,定义为
L(θ,a0)={0,θ∈Θ0,1,θ∈Θ0c.\begin{aligned}L(\theta, a_0)=\left\{\begin{matrix} 0, & \theta \in \Theta_0,\\ 1, & \theta \in \Theta_0^c. \end{matrix}\right.\end{aligned}L(θ,a0?)={ 0,1,?θ∈Θ0?,θ∈Θ0c?.??
L(θ,a1)={1,θ∈Θ0,0,θ∈Θ0c.\begin{aligned}L(\theta, a_1)=\left\{\begin{matrix} 1, & \theta \in \Theta_0,\\ 0, & \theta \in \Theta_0^c. \end{matrix}\right.\end{aligned}L(θ,a1?)={ 1,0,?θ∈Θ0?,θ∈Θ0c?.??
一种比之稍实际一点的损失叫做广义0-1损失,它对于两类错误给予不同的代价
L(θ,a0)={0,θ∈Θ0,c2,θ∈Θ0c.\begin{aligned}L(\theta, a_0)=\left\{\begin{matrix} 0, & \theta \in \Theta_0,\\ c_2, & \theta \in \Theta_0^c. \end{matrix}\right.\end{aligned}L(θ,a0?)={ 0,c2?,?θ∈Θ0?,θ∈Θ0c?.??
L(θ,a0)={c1,θ∈Θ0,0,θ∈Θ0c.\begin{aligned}L(\theta, a_0)=\left\{\begin{matrix} c_1, & \theta \in \Theta_0,\\ 0, & \theta \in \Theta_0^c. \end{matrix}\right.\end{aligned}L(θ,a0?)={ c1?,0,?θ∈Θ0?,θ∈Θ0c?.??
实际在比较检验的时候,我们真正比较的是c2c1\frac{c2}{c_1}c1?c2?,如果c2=c1c_2=c_1c2?=c1?,我们本质上用的是0-1损失。
在判决分析中,风险函数(期望损失)被用来评价一个假设检验的过程。一个检验的风险函数和它的功效函数密切相关。
设β(θ)\beta(\theta)β(θ)是一个基于判决法则δ\deltaδ的检验的功效函数。就是说,若拒绝域为R={x:δ(x)=a1}R=\left\{\mathbf x: \delta(\mathbf x)=a_1\right\}R={ x:δ(x)=a1?},则
β(θ)=Pθ(X∈R)=Pθ(δ(x)=a1)\begin{aligned}\beta(\theta)=P_{\theta}(\mathbf X \in R) = P_{\theta} (\delta(\mathbf x)=a_1)\end{aligned}β(θ)=Pθ?(X∈R)=Pθ?(δ(x)=a1?)?
因为对于任何的θ∈Θ\theta\in\Thetaθ∈Θ,L(θ,a)L(\theta, a)L(θ,a)仅取两个值,若θ∈Θ0\theta\in\Theta_0θ∈Θ0?取000与c1c_1c1?而θ∈Θ0c\theta\in\Theta_0^cθ∈Θ0c?取000与c2c_2c2?,故风险函数为
R(θ,δ)=0Pθ(δ(X)=a0)+c1Pθ(δ(X)=a1)=c1β(θ)若θ∈Θ0\begin{aligned}R(\theta, \delta)=0P_{\theta}(\delta(\mathbf X)=a_0)+c_1P_{\theta}(\delta(\mathbf X)=a_1)=c_1\beta(\theta) \ \ 若\theta\in\Theta_0\end{aligned}R(θ,δ)=0Pθ?(δ(X)=a0?)+c1?Pθ?(δ(X)=a1?)=c1?β(θ) 若θ∈Θ0??
R(θ,δ)=c2Pθ(δ(X)=a0)+0Pθ(δ(X)=a1)=c2(1?β(θ))若θ∈Θ0c\begin{aligned}R(\theta, \delta)=c_2P_{\theta}(\delta(\mathbf X)=a_0)+0P_{\theta}(\delta(\mathbf X)=a_1)=c_2(1-\beta(\theta)) \ \ 若\theta\in\Theta_0^c\end{aligned}R(θ,δ)=c2?Pθ?(δ(X)=a0?)+0Pθ?(δ(X)=a1?)=c2?(1?β(θ)) 若θ∈Θ0c??
0-1损失函数仅仅鉴定判决的对错。但是在某些情况下,我们希望损失函数能够反映出某些错误判决比别的严重。假如我们在检验H0:θ?θ0vs.H1:θ<θ0H_{0}: \theta \geqslant \theta_0 \ \ \ \ vs.\ \ \ \ H_{1}: \theta < \theta_{0}H0?:θ?θ0? vs. H1?:θ<θ0?的时候,如果θ\thetaθ稍大于θ0\theta_0θ0?而拒绝了H0H_0H0?,这犯了第一类错误,但这也许不是一个非常严重的错误,反之,如果θ\thetaθ比θ0\theta_0θ0?大得多而结果拒绝了H0H_0H0?,那就可能非常坏。
一个反映这种情况的损失函数是
L(θ,a0)={0,θ?θ0,b(θ0?θ)2,θ<θ0.\begin{aligned}L(\theta, a_0)=\left\{\begin{matrix} 0, & \theta \geqslant \theta_0,\\ b(\theta_0-\theta)^2, & \theta < \theta_0. \end{matrix}\right.\end{aligned}L(θ,a0?)={ 0,b(θ0??θ)2,?θ?θ0?,θ<θ0?.??
L(θ,a1)={c(θ?θ0)2,θ?θ0,0,θ<θ0.\begin{aligned}L(\theta, a_1)=\left\{\begin{matrix} c(\theta-\theta_0)^2, & \theta \geqslant \theta_0,\\ 0, & \theta < \theta_0. \end{matrix}\right.\end{aligned}L(θ,a1?)={ c(θ?θ0?)2,0,?θ?θ0?,θ<θ0?.??
其中bbb和ccc是正常数。
对于上面的损失函数,其期望损失为
R(θ,δ)=L(θ,a0)Pθ(δ(X)=a0)+L(θ,a1)Pθ(δ(X)=a1)=L(θ,a0)(1?β(θ))+L(θ,a1)β(θ)\begin{aligned}R(\theta, \delta)=L(\theta, a_0)P_{\theta}(\delta(\mathbf X)=a_0)+L(\theta, a_1)P_{\theta}(\delta(\mathbf X)=a_1)=L(\theta, a_0)(1-\beta(\theta)) +L(\theta, a_1)\beta(\theta)\end{aligned}R(θ,δ)=L(θ,a0?)Pθ?(δ(X)=a0?)+L(θ,a1?)Pθ?(δ(X)=a1?)=L(θ,a0?)(1?β(θ))+L(θ,a1?)β(θ)?