当前位置: 代码迷 >> 综合 >> 数据科学中的统计学---专业术语
  详细解决方案

数据科学中的统计学---专业术语

热度:95   发布时间:2023-10-27 05:00:10.0

数据类型

  1. 连续型数据:
    数据可在一个区间内取任何值;
    同义词:区间数据、浮点型数据、数值数据
  2. 离散型数据
    数据只能取整数
    同义词:整数型数据、计数型数据
  3. 分类型数据
    数据只能从特定集合中取值,表示一系列可能的分类
    同义词:枚举数据、列举数据、因子数据、标称数据、多分类数据
  4. 二元数据
    一种特殊的分类数据,数据值只能从两个值中取一个。例如:典型的boolean数值
    同义词:二分数据、逻辑型数据、指示器数据、布尔型数据
  5. 有序数据:
    具有明确排序的数据
    同义词:有序因子数据

位置估计

  1. 均值:
    所有数据值之和除以数值的个数
    同义词:平均值
  2. 加权均值:
    各数值乘以对应的权重值,然后加总求和,再除以权重的总和
    同义词:加权平均值
  3. 中位数:
    大于数据集中一半数据的数据
    同义词:第50%百分位数
  4. 加权中位数:
    使得排序数据集中分别有一半的权重之和大于该值之上和之下
  5. 切尾均值:
    在数据集中剔除一定数据的最大值和最小值之后的均值
    同义词:截尾均值
  6. 稳健:
    对极值不敏感。表示对离群值不敏感。
    同义词:耐抗性
  7. 离群值:
    与大部分数据差异很大的数据值。
    注:离群值不一定是异常值。

数据的变化程度

  1. 偏差:
    实际值与预测值之间的差异
    同义词:残差、误差
  2. 方差
    注:分母是n-1
    在这里插入图片描述
  3. 标准偏差
    方差的平方根
    同义词:L2范数、欧几里得范数
    注:分母是n-1
    在这里插入图片描述
  4. 平均绝对偏差
    数据值与均值间偏差的绝对值计算均值。说明数据围绕中心值的分散程度。
    在这里插入图片描述
  5. 中位数绝对偏差
    数据值与中位数间绝对偏差的均值
    在这里插入图片描述

注:方差、标准偏差、平均绝对偏差,他们对离群值和极值都是不稳健的。其中,方差和标准偏差对离群值尤为敏感,因为它们都是基于偏差的平方值。中位数绝对偏差是一种稳健的变异性估计量。

注:即使数据符合正态分布,方差、标准偏差、平均绝对偏差以及中位数绝对偏差这四者也并非是等价的估计量。事实上,标准偏差总是大于平均绝对偏差,而平均绝对偏差总是大于中位数绝对偏差。有时,中位数绝对偏差会乘上一个常数比例因子(通常使用1.4826),使得在正态分布下,中位数绝对偏差与标准偏差具有相同的尺度。

  1. 极差
    数据集中最大值与最小值间的差值
  2. 顺序统计量
    基于有序数据的统计量
  3. 百分位数
    表示一个数据集中,等于P%的数。
  4. 四分位距
    排序之后,第75%与第25%间的差值

相关性

  1. 相关系数
    一种用于测量数值变量之间相关程度的度量,取值范围为[-1,1]。给出了两者相关性的估计值。
  2. 相关矩阵
    行和列都是一个变量,并且行和列的变量相同,依次构成的一个对角元素为1的对称矩阵。矩阵中的每个值代表对应的行和列两个变量之间的相关性。
  3. 皮尔逊相关系数:
    变量1的平均偏差乘以变量2的平均偏差,然后再除以辨准偏差之积。范围为[-1,1]。+1表示完全正相关,-1表示完全负相关,0表示没有线性相关性。
    在这里插入图片描述

注:与平均值和标准偏差一样,相关系数对数据离群值敏感