数据类型
- 连续型数据:
数据可在一个区间内取任何值;
同义词:区间数据、浮点型数据、数值数据 - 离散型数据
数据只能取整数
同义词:整数型数据、计数型数据 - 分类型数据
数据只能从特定集合中取值,表示一系列可能的分类
同义词:枚举数据、列举数据、因子数据、标称数据、多分类数据 - 二元数据
一种特殊的分类数据,数据值只能从两个值中取一个。例如:典型的boolean数值
同义词:二分数据、逻辑型数据、指示器数据、布尔型数据 - 有序数据:
具有明确排序的数据
同义词:有序因子数据
位置估计
- 均值:
所有数据值之和除以数值的个数
同义词:平均值 - 加权均值:
各数值乘以对应的权重值,然后加总求和,再除以权重的总和
同义词:加权平均值 - 中位数:
大于数据集中一半数据的数据
同义词:第50%百分位数 - 加权中位数:
使得排序数据集中分别有一半的权重之和大于该值之上和之下 - 切尾均值:
在数据集中剔除一定数据的最大值和最小值之后的均值
同义词:截尾均值 - 稳健:
对极值不敏感。表示对离群值不敏感。
同义词:耐抗性 - 离群值:
与大部分数据差异很大的数据值。
注:离群值不一定是异常值。
数据的变化程度
- 偏差:
实际值与预测值之间的差异
同义词:残差、误差 - 方差
注:分母是n-1
- 标准偏差
方差的平方根
同义词:L2范数、欧几里得范数
注:分母是n-1
- 平均绝对偏差
数据值与均值间偏差的绝对值计算均值。说明数据围绕中心值的分散程度。
- 中位数绝对偏差
数据值与中位数间绝对偏差的均值
注:方差、标准偏差、平均绝对偏差,他们对离群值和极值都是不稳健的。其中,方差和标准偏差对离群值尤为敏感,因为它们都是基于偏差的平方值。中位数绝对偏差是一种稳健的变异性估计量。
注:即使数据符合正态分布,方差、标准偏差、平均绝对偏差以及中位数绝对偏差这四者也并非是等价的估计量。事实上,标准偏差总是大于平均绝对偏差,而平均绝对偏差总是大于中位数绝对偏差。有时,中位数绝对偏差会乘上一个常数比例因子(通常使用1.4826),使得在正态分布下,中位数绝对偏差与标准偏差具有相同的尺度。
- 极差
数据集中最大值与最小值间的差值 - 顺序统计量
基于有序数据的统计量 - 百分位数
表示一个数据集中,等于P%的数。 - 四分位距
排序之后,第75%与第25%间的差值
相关性
- 相关系数
一种用于测量数值变量之间相关程度的度量,取值范围为[-1,1]。给出了两者相关性的估计值。 - 相关矩阵
行和列都是一个变量,并且行和列的变量相同,依次构成的一个对角元素为1的对称矩阵。矩阵中的每个值代表对应的行和列两个变量之间的相关性。 - 皮尔逊相关系数:
变量1的平均偏差乘以变量2的平均偏差,然后再除以辨准偏差之积。范围为[-1,1]。+1表示完全正相关,-1表示完全负相关,0表示没有线性相关性。
注:与平均值和标准偏差一样,相关系数对数据离群值敏感