由于科研需要,一直在做一些Logistic Regression的实验。这里以R语言为例,简单介绍和总结一下其中的显著性检验。相关的语句如下:
glm.fit=glm(V16~V14,data=training,family=binomial(link="logit"))anova(glm.fit,test="Chisq")
这里使用的是卡方检验,得到的结果类似下面:
Df Deviance Resid. Df Resid. Dev Pr(>Chi) NULL 457 634.92 V14 1 24.688 456 610.23 6.74e-07 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
这里简单解释一下,NULL那一行表示零模型,剩余偏差为:634.92,接下来有一个变量V14进入模型,产生了24.688的模型偏差(似然比卡方),p-value非常小。如果显著性水平为0.05,说明应该拒绝所有回归系数同时为0的原假设,也就是说明模型是合理的。另外,考虑到自由度个数为1,我们在Excel的任意一格中输入:=CHIINV(0.05,1),回车以后得到结果是:3.841,说明卡方临界值为3.841,而我们计算的卡方值是24.688,大于临界值。综上所述,回归方程是合理的。