复杂类型数据的挖掘
?
复杂类型数据的挖掘,这包括复杂对象,空间数据,多媒体数据,时间序列数据,文本数据,和Web 数据
?
复杂结构化数据(complex structured data)的存取方法在对象关系和面向对象数据库系统已有研究。在这些系统中,大量复杂数据对象组织为类,类又按类/子类的层次加以组织。类中的每个对象具有:(1)一个对象标识;(2)一组属性,它们可以具有复杂的数据结构,如集合(set)值或列表(list)值数据,类复合层次(class composition hierarchies),多媒体数据等等;(3)一组方法,用于说明与对象类相关的计算程序或规则。
?
对象关系和面向对象数据库的主要特征就是对复杂结构数据(如集合值和列表值数据,和具有嵌套结构的数据)的存储,访问和建模。
?
“如何对这些数据进行概化?”首先来考虑集合值和列表值属性的概化。
?
一个集合值属性(set-valued attribute)可以是同构类型,也可以是异构类型。通常,集合值数据概化方法有:(1)将集合中的每一个值概化为其对应的更高级别的概念;或者(2)导出集合的一般特征,如集合中元素的个数,集合中类型或值的区间分布,或数字数据的加权平均。而且,同一概化可以基于不同的概化操作,得到不同的概化路径(generalization path)。在此情况下,概化结果为一个异构集合。
?
?
集合值属性可以概化为集合值属性或单值属性;若单值属性形成一个格(lattice)或“层次”,或概化有不同的概化路径,则它可以概化为一个集合值属性;进一步地,在概化集合值属性上的概化应遵循集合中每一值的概化路径。
?
列表值或序列值属性(list-valued or sequence-valued attribute)的概化方法类似集合值属性,所不同的是概化中要保持元素的次序。列表中的每一个值可以概化为其对应的高级别概念。或者,把一个列表概化为一般特征,如列表长度,列表元素类型,值区间,数字值的加权平均,或删除列表中不重要的元素。一个列表可以概化为列表,集合,或单一值
?
复杂的结构值属性可以包括集合,元组,列表,树,记录等等,以及它们的组合,即其中的一个结构可以以任意深度嵌套在另一个结构中。通常,一个结构值属性可以有几种概化方法,例如:
(1)保持原本结构不变,对其中的每一个属性加以概化;(2)把原结构扁平化,对扁平化的结构做概化;(3)用高级别的概念或聚集概化低级别的结构;(4)概化出原结构的类型或概貌。
?
?
空间和多媒体数据概化中的聚集和近似计算
聚集和近似计算(approximation)是概化的另一个重要的方面,它对具有大量值,复杂结构的空间或多媒体数据的属性尤为重要。
?
以空间数据为例。我们通常需要将一些具体的地理上的点概化为一些聚合区域,如根据土地的用途可概化为商业区,居民区,工业区,或农业区等。这种概化需要通过一些空间操作,如空间并或空间聚类方法,把一组地理区域加以合并。聚集和相似计算是实现这种形式概化的重要技术手段。
?
在空间合并(spatial merge)中,不仅需要合并出具有同一类别的相似类型的区域,而且需要计算出总的面积,平均密度,或其它的聚集函数,这其中还要考虑忽略那些不重要的类型各异的分散的区域。其它一些空间操作,如空间并(spatial union),空间重叠(spatial overlapping),和空间交(spatialintersection),它们需要把一些分散的小的区域合并为大的聚合区域,这些操作也要使用空间聚集和近似计算来完成概化处理。
?
多媒体数据库包含复杂的文本,图形,图象,视频,地图,声音,音乐,和其它形式的音频/视频信息。多媒体数据通常以可变长度的位串存储,并且为便于数据的引用,数据片段要相互链接或建立多维方式的索引。
?
多媒体数据的概化可通过对这类数据的基本特征和(/或)一般模式的识别和抽取加以完成。抽取这类信息的方式很多。对图象数据,通过聚集和近似计算可提取的信息可以有尺寸(size),颜色(color),形状(shape),质地(texture),方位(orientation),和图象中所包含对象或区域的位置和结构。
?
对音乐数据,其音调可以通过近似计算找出重复出现的模式片段,而其风格可以基于音调,节拍,或主要演奏乐器总结得出。对一篇文章,其概化结果可以是文章的摘要或篇章结构(例如,目录,出现频率较高的主题和索引)。
?
通常,从空间和多媒体数据中提取隐含存在的知识,从而对这些数据加以概化是一件具有挑战性的工作。必须把空间数据库和多媒体数据库技术(如空间数据的访问和分析技术,基于内容的图象检索和多维索引方法)与数据概化和数据挖掘技术结合起来使用,才能取得满意结果
?
“如果对象标识的作用是唯一标识对象,那么如何对其进行概化?”初看起来,对象标识似乎不可被概化。因为对象标识即使在数据结构重组后也保持不变。然而由于面向对象数据库中的对象按类组织,类又组织为类/子类层次结构,因此对象的概化可以基于相关的层次结构来完成。这样对象标识可以按如下步骤加以概化:首先,对象标识概化为对象所属的最底层子类的标识。然后子类标识可以沿类/子类层次向上概化为高一级别的类/子类标识。同样,类或子类可以顺着类/子类层次结构向上被概化为其对应的超类。
?
“对象的继承特性可以被概化吗?”由于面向对象数据库组织为类/子类层次,对象类的某些属性或成员并不明确地在类中说明,而是从对象的高一级别类中继承得来。有些面向对象数据库系统允许多重继承(multiple inheritance),即当类/子类结构呈类格时,一些特性可以从不止一个超类中继承而来。对象的继承特性可以由面向对象数据库中的查询处理推导得出。从数据概化的角度看,没有必要区分数据直接来自类还是继承于超类。只要查询处理能够把有关的数据集合得到,数据挖掘处理时会对两类数据(继承的和直接的)一视同仁,并据此加以概化。
?
方法是面向对象数据库的重要组成部分。对象的很多特征数据可以通过应用方法导出。由于方法通常定义为计算过程/函数或一组演绎规则,因此对方法本身不存在概化问题。但是可以对由方法导出的数据加以概化。即一旦由方法导出了一组数据,则可以对这些数据加以概化。
?
一个对象的属性可以定义为另一个对象,而该对象的属性又可以定义为对象,如此便形成了类复合层次(class composition hierarchy)结构。关于类复合层次的概化可视为在一组嵌套的结构化数据(如果嵌套是递归的,其嵌套层次可能无限)之上的概化。
原则上,对复合对象(composite object)的引用要在类复合层次上遍历一段引用路径。但在大多数情况下,遍历路径越长,其初始对象与被引用的复合对象间的语义相关性越弱
?
?
一组对象上的概化必须限定在对有限的紧密相关的构成属性上的概化。即,要发现感兴趣的知识,其概化必须在类复合层次中与当前类有紧密语义关联的对象上进行,而不是那些相隔较远,语义联系较弱的对象上。
?
在对象数据库中,数据的概化与多维分析不适用单个对象,而是面对一组对象。由于某个类的一组对象可能共享许多属性和方法,并且每个属性和方法的概化可能使用一系列的概化操作,这时一个很重要的问题是如何使类中不同的属性和方法的概化处理相互协作利用。
?
基于概化的数据挖掘过程可视为一组在不同属性上基于类的概化操作的序列。概化可以连续进行,直到结果类中所包含的概化对象数目较少,并且可以概括为一个抽象层次较高的简练而一般的规则。为高效实现这一概化,对复杂对象类的多维属性的概化可以转化为对每一属性(维)的概化,既概化每一属性为简单值数据,并据此构造一个多维数据立方体,称为对象立方体。一旦有了对象立方体,其多维分析和数据挖掘就可比照关系数据立方体的方法进行。
?
分而治之(divide-and-conquer)策略,在规划数据库(plan database)中挖掘有意义的成功行为模式。一个规划通常由一个可变的行为序列组成。一个规划数据库,或简称为规划库(planbase),则为若干计划的集合。规划挖掘(plan mining)就是从规划库中挖掘出有意义的模式或知识。规划挖掘有很多用途,
?
空间数据库存储了大量与空间有关的数据,例如地图,遥感或医学图象数据,VLSI 芯片设计数据等。空间数据库有许多与关系数据库所不同的显著特征。空间数据库包含了拓扑和/或距离信息,通常按复杂的,多维空间索引结构组织数据,其访问是通过空间数据的访问方法,经常需要空间推理,地理计算,和空间知识表示技术。
?
空间数据挖掘是指对空间数据库中非明确存在的知识,空间关系,或其它有意义的模式等的提取。空间数据挖掘需要综合数据挖掘与空间数据库技术,它可用于对空间数据的理解,空间关系和空间与非空间数据间关系的发现,空间知识库的构造,空间数据库的重组,和空间查询的优化。空间数据挖掘在地理信息系统,“地理市场”(geomarketing),遥感,图象数据库探测,医学图象处理,导航,交通控制,环境研究,以及许多使用空间数据的领域中有广泛的应用价值。由于空间数据的大数据量和空间数据类型和空间访问方法的复杂性,空间数据挖掘面临的主要挑战是研究高效的空间数据挖掘技术。
?
“空间数据挖掘使用统计技术方法如何?”统计空间数据分析已经是空间数据分析中常用的方法。统计方法可以很好地处理数字型数据,并可以对空间现象提出现实的模型。然而它存在的问题也很多,比如统计方法通常假设空间分布的数据间是统计上独立的,但现实是空间对象间是相互关联的;大部分统计模型只有具有相当丰富领域知识和统计方面经验的统计专家才用得起来;统计方法不适用符号值,或不完整或非确定的数据,对大规模数据库其计算代价也十分昂贵。空间数据挖掘将对传统的空间分析方法加以扩展,重点解决其高效性,可伸缩性,与数据库系统的紧密结合,改进与用户的交互,以及新的知识的发现。
?