文章目录
- 1. 集中趋势描述
- 2. 离散程度描述
- 3. 分布形状指标
- 4. 小结
描述性统计量主要分为两大块:集中趋势和离散程度。
下面主要根据三种数据类型(数值数据、分类数据、有序分类数据)来进行分别说明这两种统计描述量。
1. 集中趋势描述
对数据集中趋势的描述,主要是是依赖平均数,它包含均值、众数、中位数三个指标。
平均数、众数、中位数的选择分这几种情况:
在分类数据中,由于没得选,我们可以选择众数作为我们的统计量;
在顺序数据中,我们可以使用众数和中位数作为我们的统计量,但我们更加偏向于选择中位数(分位数);
在数值型数据中,众数、中位数和平均数都可以作为我们选取的统计量,那么在数据呈现对称分布时,我们的选取以上三个统计量结果是一样的,一般都选择平均数;当数据呈现偏态分布时,我们则选取中位数和众数作为我们的集中趋势度量值。
2. 离散程度描述
对数据离散程度的描述只要是通过差/距相关的指标,具体主要包括极差(或者说全距)、四分位差(或者说四分位距)、方差、标准差、标准分、离散系数等。
3. 分布形状指标
反应分布形状的指标主要是偏态(Skewness)和与峰态(kurtosis)。
4. 小结
参考:
- 数学知识——概率统计(2):一文快速了解入门知识与框架
- 数据分析的基础——统计学之描述性统计(一)
- 数据分析的基础——统计学之描述性统计(二)
- 数据分析-描述性分析