数据挖掘功能
存在大量数据挖掘功能,包括特征化与区分,频繁模式,关联和相关性挖掘,分类与回归,聚类分析,离群点分析。一般而言,这些任务可以分为两类:描述性,预测性。描述性挖掘 刻画目标数据中数据的一般性质,预测性挖掘在当前数据上进行归纳以及预测。
用于预测分析的分类与回归
分类是这样的过程,他找出描述和分区数据类或概念模型,以便能够使用模型来预测类标号未知的对象类标号。导出模型是基于对训练数据集的分析。
导出的模型可有多种表示方式,如分类规则(IF-THEN规则),决策树,数学公式或者神经网络。
相关分析可能需要在分类和回归之前进行,他试图识别与分类和回归过程显著相关的属性。分类预测类别标号,而回归建立连续值函数模型,也就是说,回归用来预测缺失的或者难以获得的数值数据,而不是离散的类标号,术语预测可以说是指 数值预测和类标号预测。
类/概念描述:特征化与区分
数据可以与类或者概念相关。例如商品类包括计算机与打印机,顾客概念则是高消费和有预算消费。这种描述称为类/概念描述。这种描述可以通过下述方法得到:
- 数据特征化,一般汇总的研究目标类的数据;
- 数据分区,将目标类与多个比较类进行比较;
- 数据特征化和区分。
挖掘频繁模式,关联和相关性
- 频繁模式 是在数据中频繁出现的模式。存在多种类型的频繁模式,包括频繁项集,频繁子序列 (序列模式),频繁子结构。频繁项集是指频繁的在事物数据中一起出现的商品集合。序列模式是有序的事物频繁出现。子结构可能涉及到不同的结构形式(树,图,表等),如果一个结构频繁出现,则称他为结构模式。
- 关联分析
例如:你想知道哪些商品经常被购买,从事务数据中可挖掘出这种规律:
buys(X,"电脑")=>buys(X,"软件")[support(支持度)=1%,confidence(置信度)=50%]
X代表顾客,置信度为50%意味着如果有一位顾客买电脑,那么再购买软件的可能性为50%,支持度则意味着所有事务中电脑和软件一起购买的概率为1%。这个关联规则涉及到单个重复的属性或谓词(buys),这种称为单维关联规则,简写如下:
computer=>sofware[1%,50%]
如果对客户挖掘可以有:
age(X,"20?29")∧income(X,"40K?50K")=>buys(X,"电脑")[support=2%,confidence=60%]
聚类分析
聚类分析数据对象,而不考虑类标号,在许多情况下,开始并存在标记类的数据,可以使用聚类产生数据组群的类标号,对象根据最大化类内相似性,最小化类间相似性的原则进行聚类或者分组。也就是说,对象的簇这样形成,使得相比之下在同一簇中的对象具有很高的相似性,而且与其他簇差异性很大。没形成的簇可以看做一个对象类,它可以导出规则。聚类也便于分类法形成,即将观测组织成类分层结构,把类似的事物组织在一起。
离群点分析
数据集中可能包含了一些数据对象,他们与数据的一般行为或模型不一致,这些数据对象是离群点。大部分方法视其为噪点或异常而丢弃,事实上在某些例子中是有价值的,例如诈骗检测。离群点数据分析叫做离群点分析或异常挖掘。