适当的统计指标:
?集中趋势指标:均数、中位数
- 算术均数(arithmetic mean) - 常用于正态分布资料,对极值敏感
- 几何均数(geometric mean) - 变量对数值的算术均数的反对数,对数呈正态分布
- 中位数和百分位数(median & percentile)
- 以上统称为平均数(average)常用于描述一组变量值的集中位置,代表其平均水平或是集中位置的特征值。
- 计算方法 -- 直接法/加权法
注:同一组资料求得的几何均数小于算术均数。
?离散趋势指标/变异指标:极差、标准差、方差
- 四分位间距(Q= Qu – QL=P75%-P25%) - 常用于表示偏态分布资料的变异
- 变异系数 :
- 方差为什么要除以(n-1)? -- 与自由度(degrees of freedom)有关。
自由度是统计学术语,其意义是随机变量能自由取值的个数。如:n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度。若受到k个条件的限制,就只有(n-k)个自由度了。计算标准差时,n个变量值本身有n个自由度。但受到样本均数的限制,任何一个“离均差”均可以用另外的(n-1)个“离均差”表示,所以只有(n-1)个独立的“离均差”。因此只有(n-1)个自由度。
1.极差较粗,适合于任何分布
2.四分位数间距,也不全面,常用于偏态分布
3.标准差与均数的单位相同,最常用,适合于正态/近似正态分布
4.变异系数主要用于单位不同或均数相差悬殊资料
5.平均指标和变异指标分别反映资料的不同特征,
常配套使用 如 正态分布:均数、标准差;
偏态分布:中位数、四分位数间距
频数分布又可分为对称分布和偏态分布
对称分布:集中位置在正中,左右两侧频数分布大体对称
偏态分布:集中位置偏向一侧,频数分布不对称
正偏态分布:集中位置偏向年龄小的一侧
负偏态分布:集中位置偏向年龄大的一侧
不同类型的分布,应采用相应的统计分析方法。