[转] R 置信区间、预测区间差别

原文地址: https://www.cnblogs.com/100thMountain/p/5539024.html




置信区间估计(confidence interval estimate):利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的估计区间。
预测区间估计(prediction interval estimate):利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间。



CLI requests the 100(1-α)% upper and lower confidence limits for an individual predicted value. By default, the 95% limits are computed; the ALPHA= option in the PROC REG or MODEL statement can be used to change the α level. The confidence limits reflect variation in the error, as well as variation in the parameter estimates. See the section Predicted and Residual Values and Chapter 4, Introduction to Regression Procedures, for more information. 

CLM displays the 100(1-α)%  upper and lower confidence limits for the expected value of the dependent variable (mean) for each observation. By default, the 95% limits are computed; the ALPHA= in the PROC REG or MODEL statement can be used to change the α level. This is not a prediction interval (see the CLI option) because it takes into account only the variation in the parameter estimates, not the variation in the error term. See the section Predicted and Residual Values and Chapter 4, Introduction to Regression Procedures, for more information. 

一种是置信区间(confidence interval),他是对于x的一个给定值,y的平均值的区间估计。
另一种是预测区间(prediction interval),他是对于x的一个给定值,y的一个个别值的区间估计。

从帮助文档看,CLI对应的是预测区间(prediction interval),CLM对应的是置信区间(confidence interval),并且预测区间的范围总是要比置信区间的范围要大的。就是说,给定一个X,估计对应Y的平均值平均值比估计一个个别值更精确一点。其实也好理解,估计平均值比估计个别值貌似更简单一点嘛。个别值更容易受一些外界因素影响而有差异性,而平均值则相对稳定些。

1. 今年最大积雪深度为7米,预测今年灌溉面积
2. 对于那些积雪深度为7米的年份,预测灌溉面积
