当前位置: 代码迷 >> 综合 >> weka 数据定义
  详细解决方案

weka 数据定义

热度:78   发布时间:2024-01-11 08:39:54.0

 

数据挖掘:概念与技术(原书第3版)

2.1.2 标称属性

标称意味“与名称相关”。标称属性(nominal attribute)的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看做是分类的(categorical)。这些值不必具有有意义的序。在计算机科学中,这些值也被看做是枚举的(enumeration)。

例2.1 标称属性。假设hair_color(头发颜色)和marital_status(婚姻状况)是两个描述人的属性。在我们的应用中,hair_color的可能值为黑色、棕色、淡黄色、红色、赤褐色、灰色和白色。属性marital_status的取值可以是单身、已婚、离异和丧偶。hair_color和marital_status都是标称属性。标称属性的另一个例子是occupation(职业),具有值教师、牙医、程序员、农民等。

尽管我们说标称属性的值是一些符号或“事物的名称”,但是可以用数表示这些符号或名称。例如对于hair_color,我们可以指定代码0表示黑色,1表示棕色,等等。另一个例子是customer_ID(顾客号),它的可能值可以都是数值。然而,在这种情况下,并不打算定量地使用这些数。也就是说,在标称属性之上,数学运算没有意义。与从一个年龄值(这里,年龄是数值属性)减去另一个不同,从一个顾客号减去另一个顾客号毫无意义。尽管一个标称属性可以取整数值,但是也不能把它视为数值属性,因为并不打算定量地使用这些整数。在2.1.5节,我们将更详细地说明数值属性。

因为标称属性值并不具有有意义的序,并且不是定量的,因此,给定一个对象集,找出这种属性的均值(平均值)或中位数(中值)没有意义。然而,一件有意义的事情是使该属性最常出现的值,这个值称为众数(mode),是一种中心趋势度量。我们将在2.2节介绍中心趋势度量。

 

我们已经把属性分为标称、二元、序数和数值类型。可以用许多方法来组织属性类型,这些类型不是互斥的。

机器学习领域开发的分类算法通常把属性分成离散的或连续的。每种类型都可以用不同的方法处理。离散属性具有有限或无限可数个值,可以用或不用整数表示。属性hair_color、smoker、medical_test和drink_size都有有限个值,因此是离散的。注意,离散属性可以具有数值值。如对于二元属性取0和1,对于年龄属性取0到110。如果一个属性可能的值集合是无限的,但是可以建立一个与自然数的一一对应,则这个属性是无限可数的。例如,属性customer_ID是无限可数的。顾客数量是无限增长的,但事实上实际的值集合是可数的(可以建立这些值与整数集合的一一对应)。邮政编码是另一个例子。

如果属性不是离散的,则它是连续的。在文献中,术语“数值属性”与“连续属性”通常可以互换地使用。(这可能令人困惑,因为在经典意义下,连续值是实数,而数值值可以是整数或实数。)在实践中,实数值用有限位数字表示。连续属性一般用浮点变量表示。