数据挖掘学习笔记
1.概述
数据挖掘火热的主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。
数据挖掘是信息技术自然进化的结果。进化过程的见证是数据库工业界开发以下功能:数据收集和数据库创建,数据管理(包括数据存储和提取,数据库事务处理),以及数据分析与理解(涉及数据仓库和数据挖掘)
?
现在,数据可以存放在不同类型的数据库中。
数据仓库是一种多个异种数据源在单个站点以统一的模式组织的存储,以支持管理决策。数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)。OLAP 是一种分析技术,具有汇总、合并和聚集功能,以及从不同的角度观察信息的能力
?
数据挖掘工具进行数据分析,可以发现重要的数据模式,对商务决策、知识库、科学和医
学研究作出了巨大贡献。数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识“金块”。
?
?
数据挖掘是从大量数据中提取或“挖掘”知识。如数据库中知识挖掘、知识提取、数据/模式分析、数据考古和数据捕捞。有和数据挖掘类似
?
知识发现过程:
数据清理(消除噪音或不一致数据)
数据集成(多种数据源可以组合在一起)
数据选择(从数据库中提取与分析任务相关的数据)
数据变换(数据变换或统一成适合挖掘的形式;如,通过汇总或聚集操作)
数据挖掘(基本步骤,使用智能方法提取数据模式)
模式评估(根据某种兴趣度度量,识别提供知识的真正有趣的模式)
知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。
?
数据挖掘步骤可以与用户或知识库交互。有趣的模式提供给用户,或作为新的知识存放在知识库中。
?
数据挖掘的广义观点:数据挖掘是从存放在数据库、数据仓库或其它信息库中的大量数据挖掘有趣知识的过程。
?
典型的数据挖掘系统具有以下主要成分:
数据库、数据仓库、或其它信息库:这是一个或一组数据库、数据仓库、展开的表、或其它类型的信息库。可以在数据上进行数据清理和集成。
数据库或数据仓库服务器:根据用户的数据挖掘请求,数据库或数据仓库服务器负责提取相关数据。知识库:这是领域知识,用于指导搜索,或评估结果模式的兴趣度。这种知识可能包括概念分层,用于将属性或属性值组织成不同的抽象层。用户确信方面的知识也可以包含在内。可以使用这种知识,根据非期望性评估模式的兴趣度。领域知识的其它例子有兴趣度限制或阈值和元数据(例如,描述来自多个异种数据源的数据)。
数据挖掘引擎:这是数据挖掘系统基本的部分,由一组功能模块组成,用于特征、关联、分类、聚类分析、演变和偏差分析。
模式评估模块:通常,该部分使用兴趣度度量,并与挖掘模块交互,以便将搜索聚焦在有
趣的模式上。它可能使用兴趣度阈值过滤发现的模式。模式评估模块也可以与挖掘模块集成在一起,这依赖于所用的数据挖掘方法的实现。对于有效的数据挖掘,建议尽可能地将模式评估推进到挖掘过程之中,以便将搜索限制在有兴趣的模式上。
图形用户界面:该模块在用户和挖掘系统之间通讯,允许用户与系统交互,指定数据挖掘查询或任务,提供信息、帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。此外,该成分还允许用户浏览数据库和数据仓库模式或数据结构,评估挖掘的模式,以不同的形式对模式可视化。
?
?
数据挖掘涉及多学科技术的集成,包括数据库技术、统计、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息提取、图象与信号处理和空间数据分析。
?
一个算法是可规模化的,如果给定内存和磁盘空间等可利用的系统资源,其运行时间应当随数据库大小线性增加。通过数据挖掘,可以从数据库提取有趣的知识、规律、或高层信息,并可以从不同角度观察或浏览。发现的知识可以用于决策、过程控制、信息管理、查询处理、等等
?
?
原则上讲,数据挖掘可以在任何类型的信息存储上进行。这包括关系数据库、数据仓库、事务数据库、先进的数据库系统、展平的文件和WWW。先进的数据库系统包括面向对象和对象-关系数据库;面向特殊应用的数据库,如空间数据库、时间序列数据库、文本数据库和多媒体数据库。挖掘的挑战和技术可能因存储系统而异。
?
数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新构造
?
通常,数据仓库用多维数据库结构建模。其中,每个维对应于模式中一个或一组属性,每个单元存放聚集度量。数据仓库的实际物理结构可以是关系数据存储或多维数据方。
它提供数据的多维视图,并允许快速访问预计算的和汇总的数据。
?
数据仓库收集了整个组织的主题信息,因此,它是企业范围的。另一方面,数据集市是数据仓库的一个部门子集。它聚焦在选定的主题上,是部门范围的。
?
一般地,事务数据库由一个文件组成,其中每个记录代表一个事务。通常,一个事务包含一个唯一的事务标识号(trans_ID),和一个组成事务的项的列表
?
?
面向对象数据库基于面向对象程序设计范例。用一般术语,每个实体被看作一个对象
?
涉及一个对象的数据和代码封装在一个单元中。每个对象关联:
一个变量集,它描述数据。这对应于实体-联系和关系模型的属性。
一个消息集,对象可以使用它们与其它对象,或与数据库系统的其它部分通讯。
一个方法集,其中每个方法存放实现一个消息的代码。一旦收到消息,方法就返回一个响应值
?
共享公共特性集的对象可以归入一个对象类。每个对象都是其对象类的实例。对象类可以组成类/子类层次结构,使得每个类代表该类对象共有的特性
?
时间数据库和时间序列数据库都存放与时间有关的数据。时间数据库通常存放包含时间相关属性的数据。这些属性可能涉及若干时间标签,每个都具有不同的语义。时间序列数据库存放随时间变化的值序
文本数据库是包含对象文字描述的数据库;多媒体数据库存放图象、音频和视频数据。
?
数据挖掘功能用于指定数据挖掘任务中要找的模式类型。一般地,数据挖掘任务可以分两类:
描述和预测。描述性挖掘任务刻划数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,以进行预测。
?
数据可以与类或概念相关联,用汇总的、简洁的、精确的方式描述每个类和概念可能是有用的。这种类或概念的描述称为类/概念描述。这种描述可以通过下述方法得到(1)数据特征化,一般地汇总所研究类(通常称为目标类)的数据,或(2)数据区分,将目标类与一个或多个比较类(通常称为对比类)进行比较,或(3)数据特征化和比较。
?
数据特征是目标类数据的一般特征或特性的汇总。通常,用户指定类的数据通过数据库查询收集
?
?
数据特征的输出可以用多种形式提供。包括饼图、条图、曲线、多维数据方和包括交叉表在内的多维表。结果描述也可以用泛化关系或规则(称作特征规则)形式提供。
?
数据区分是将目标类对象的一般特性与一个或多个对比类对象的一般特性比较。目标类和对比类由用户指定,而对应的数据通过数据库查询提取。
?
关联分析发现关联规则,这些规则展示属性-值频繁地在给定数据集中一起出现的条件。关联分析广泛用于购物篮或事务数据分析
?
?
分类是这样的过程,它找描述或识别数据类或概念的模型(或函数),以便能够使用模型预测类标号未知的对象。导出模型是基于对训练数据集(即,其类标号已知的数据对象)的分析。
分类可以用来预测数据对象的类标号。当被预测的值是数值数据时,通常称之为预测
?
相关分析可能需要在分类和预测之前进行,它试图识别对于分类和预测无用的属性。这些属性应当排除。
?
与分类和预测不同,聚类分析数据对象,而不考虑已知的类标号。一般地,
训练数据中不提供类标号,因为不知道从何开始。聚类可以产生这种标号。对象根据最大化类内的相似性、最小化类间的相似性的原则进行聚类或分组。即,对象的聚类这样形成,使得在一个聚类中的对象具有很高的相似性,而与其它聚类中的对象很不相似。所形成的每个聚类可以看作一个对象类,由它可以导出规则。聚类也便于分类编制,将观察组织成类分层结构,类似的事件组织在一起。
?
?
数据库中可能包含一些数据对象,它们与数据的一般行为或模型不一致。这些数据对象是局外者。大部分数据挖掘方法将局外者视为噪音或例外而丢弃。局外者数据分析称作局外者挖掘。局外者可以使用统计试验检测
?
数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。尽管这可能包括时间相关数据的特征、区分、关联、分类或聚类,这类分析的不同特点包括时间序列数据分析、序列或周期模式匹配和基于类似性的数据分析。
?
一个模式是有趣的,如果(1)它易于被人理解,(2)在某种程度上,对于新的或测试数据是有效的,(3)是潜在有用的,(4)是新颖的。如果一个模式符合用户确信的某种假设,它也是有趣的。有趣的模式表示知识。
?
依赖于所挖掘的数据类型或给定的数据挖掘应用,数据挖掘系统也可能集成空间数据分析、信息提取、模式识别、图象分析、信号处理、计算机图形学、Web 技术、经济、或心理学领域的技术。
?
根据不同的标准,数据挖掘系统可以分类如下:根据挖掘的数据库类型分类、根据挖掘的知识类型分类、根据所用的技术分类、根据应用分类。
?
数据挖掘的主要问题
数据挖掘技术和用户界面问题:这反映所挖掘的知识类型、在多粒度上挖掘知识的能力、领域知识的使用、特定的挖掘和知识显示。
?
关于数据库类型的多样性问题。关系的和复杂的数据类型的处理:由于关系数据库和数据仓库已经广泛使用,对它们开发有效的数据挖掘系统是重要的。然而,其它数据库可能包含复杂的数据对象、超文本和多媒体数据、空间数据、时间数据、或事务数据。由于数据类型的多样性和数据挖掘的目标不同,指望一个系统挖掘所有类型的数据是不现实的。为挖掘特定类型的数据,应当构造特定的数据挖掘系统。这样,对于不同类型的数据,我们可能有不同的数据挖掘系统。
?
?