方差分析是基于F检测的。
首先说说简单的单因素方差分析,所谓单因素举个例子就是判断男生女生的身高是不是来自同一个总体,换句话说就是性别这个因素会不会影响到身高的分布。这里只考虑一个因素就是性别。而男或者女就是所谓的“水平”。可以在不同的水平下收集数据。
单因素方差分析的原假设是在不同的水平下的总体的均值是相等的。然后将所有样本的总变差拆分成各个水平下样本的误差SE 加上 各个水平上均值间的因素效应误差SA。可以证明SE 和 SA 分别服从两个自由度不同的卡方分布。于是F检测就可以登场了。
同样根据上面的男女生身高来举例:
身高(cm)
男: 175 180 176
女: 165 167 162
对于上面的这组数据你可以统计3个方差: 一个是全部六个数据的总平方差(254), 一个每个性别水平下的总平方差(男:14,女:12.6666), 和男生平均身高与女生平均身高间的方差(76.05514)
你会发现254.8333=14+12.6666+76.05514*3
用一段R来表述就是(注意R取方差用的除数是n-1,所以这里求变差的时候都是用的2而不是3):
hm=c(175,180,176)
hw=c(165,162,167)
h=c(hm,hw)
var(hm)*2+var(hw)*2+3*((mean(hm)-mean(h))^2+(mean(hw)-mean(h))^2)-var(h)*5
round(.Last.value)
SA与SE分别服从自由度为s ? 1,n ? s的χ2分布
F服从卡方分布, 计算出F就能查表知道H0成立的可能性了.
详见维基百科:
点击打开链接
另有一篇R使用anova函数来做单因素方差分析的教程:
http://jingyan.baidu.com/article/4b07be3c4e314548b380f3a5.html
再来说说多因素的方差分析:待续