当前位置: 代码迷 >> 数据仓库 >> 数据挖掘导论学习笔记(3)- 汇总统计
  详细解决方案

数据挖掘导论学习笔记(3)- 汇总统计

热度:8740   发布时间:2013-02-26 00:00:00.0
数据挖掘导论学习笔记(3)----- 汇总统计

1.频率和众数? (是一组数据中出现次数最多的数值,叫众数)

2.百分位数

3.位置度量:均值(mean)和中位数(median)

?? 均值:统计学术语,与“平均”(Average)意义相同。例如: l、3、6,10、20这5个数的均值是8。也同期望

?? 截断均值(trimmed mean):截断均值是去掉高、低极端值得到的均值。应当避免在两端截断的比例太大,因为这可能导致损失有价值的信息

?? 中位数(Medians)统计学名词,是指将统计总体当中的各个变量值按大小顺序排列起来,形成一个数列,处于变量数列中间位置的变量值就称为中位数,用Me表示。当变量值的项数N为奇数时,处于中间位置的变量值即为中位数;当N为偶数时,中位数则为处于中间位置的2个变量值的平均数。(注意:中位数和众数不同,中位数不一定在这组数据中。而众数必定在该组数据)

4.散步度量:极差(range)和方差

?? 极差(range): 给定属性x,它具有m个值{x1,x2......Xm}

?????????????????????????? range(x) = max(x)-min(x)= Xm-X1

? ? 方差,标准差。

? ? 同样方差对离群值敏感,常常使用下路度量定义:

??? 绝对平均偏差(absolute average deviation,ADD)

??? 中位数绝对偏差(median absolute deviation,MAD)

???? 四分位偏差(interquartile range,IQR)

5.多元汇总统计

??? 协方差矩阵(covariance matrix)

??? 相关矩阵(correlation matrix)

?

  相关解决方案