小弟我也想了解数据挖掘_数据仓库

我也想了解数据挖掘

机器学习和数据挖掘这一行业确实很吸引人，我也正在努力学习这一方面的知识，希望可以作为我今后的工作方向。本人就读于一所普通211大学，老实讲，这一方面的知识就别指望学校里的老师给我们讲了，想想有点挂钩的就属大一的概率论了吧。

数据挖掘是一行业，机器学习是一方法，我们用机器的学习算法来处理数据的挖掘。所以作为弱菜的我觉得（仅代表个人观点），机器学习和数据挖掘虽有本质区别，但是在很多时候是相互融合分不开的。

本文内容摘自伯乐在线，旨在分享给热爱数据挖掘和机器学习的童鞋们，一起努力，一起拼！

1763 年，Thomas Bayes 的论文在他死后发表，他所提出的 Bayes 理论将当前概率与先验概率联系起来。因为 Bayes 理论能够帮助理解基于概率估计的复杂现况，所以它成为了数据挖掘和概率论的基础。

1805 年, Adrien-Marie Legendre 和 Carl Friedrich Gauss 使用回归确定了天体（彗星和行星）绕行太阳的轨道。回归分析的目标是估计变量之间的关系，在这个例子中采用的方法是最小二乘法。自此，回归成为数据挖掘的重要工具之一。

1936 年，计算机时代即将到来，它让海量数据的收集和处理成为可能。在1936年发表的论文《论可计算数（On Computable Numbers）》中，Alan Turing 介绍了通用机（通用图灵机）的构想，通用机具有像今天的计算机一般的计算能力。现代计算机就是在图灵这一开创性概念上建立起来的。

1943 年，Warren McCullon 和 Walter Pitts 首先构建出神经网络的概念模型。在名为《A logical calculus of the ideas immanent in nervous activity》的论文中，他们阐述了网络中神经元的概念。每一个神经元可以做三件事情：接受输入，处理输入和生成输出。

1965 年，Lawrence J. Fogel 成立了一个新的公司，名为 Decision Science, Inc，目的是对进化规划进行应用。这是第一家专门将进化计算应用于解决现实世界问题的公司。

上世纪 70 年代，随着数据库管理系统趋于成熟，存储和查询百万兆字节甚至千万亿字节成为可能。而且，数据仓库允许用户从面向事物处理的思维方式向更注重数据分析的方式进行转变。然而，从这些多维模型的数据仓库中提取复杂深度信息的能力是非常有限的。

1975 年，John Henry Holland 所著的《自然与人工系统中的适应》问世，成为遗传算法领域具有开创意义的著作。这本书讲解了遗传算法领域中的基本知识，阐述理论基础，探索其应用。

到了 80 年代，HNC 对“数据挖掘”这个短语注册了商标。注册这个商标的目的是为了保护名为“数据挖掘工作站”的产品的知识产权。该工作站是一种构建神经网络模型的通用工具，不过现在早已销声匿迹。也正是在这个时期，出现了一些成熟的算法，能够“学习”数据间关系，相关领域的专家能够从中推测出各种数据关系的实际意义。

1989 年，术语“数据库中的知识发现”（KDD）被Gregory Piatetsky-Shapiro 提出。同样这个时期，他合作建立起第一个同样名为KDD的研讨会。

到了 90 年代，“数据挖掘”这个术语出现在数据库社区。零售公司和金融团体使用数据挖掘分析数据和观察趋势以扩大客源，预测利率的波动，股票价格以及顾客需求。

1992 年，Berhard E. Boser, Isabelle M. Guyon 和 Vladimir N. Vanik对原始的支持向量机提出了一种改进办法，新的支持向量机充分考虑到非线性分类器的构建。支持向量机是一种监督学习方法，用分类和回归分析的方法进行数据分析和模式识别式。

1993 年，Gregory Piatetsky-Shapiro 创立“ Knowledge Discovery Nuggets (KDnuggets) ”通讯。本意是联系参加KDD研讨会的研究者，然而KDnuggets.com的读者群现在似乎广泛得多。

2001 年，尽管“数据科学”这个术语在六十年代就已存在，但直至 2001 年，William S. Cleveland 才以一个独立的概念介绍它。根据《Building Data Science Teams》所著，DJ Patil 和 Jeff Hammerbacher 随后使用这个术语介绍他们在 LinkedIn 和 Facebook 中承担的角色。

2003 年，Micheal Lewis 写的《点球成金》出版，同时它也改变了许多主流联赛决策层的工作方式。奥克兰运动家队（美国职业棒球大联盟球队）使用一种统计的，数据驱动的方式针对球员的素质进行筛选，这些球员被低估或者身价更低。以这种方式，他们成功组建了一支打进2002和2003年季后赛的队伍，而他们的薪金总额只有对手的1/3。

如今（2015年），在 2015 年二月，DJ Patil成为白宫第一位首位数据科学家。今天，数据挖掘已经遍布商业、科学、工程和医药，这还只是一小部分。信用卡交易，股票市场流动，国家安全，基因组测序以及临床试验方面的挖掘，都只是指数据挖掘应用的冰山一角。随着数据收集成本变得越来越低，数据收集设备数目激增，像大数据这样的专有名词现在已经是随处可见。

一、数据挖掘技术的基本概念

随着计算机技术的发展，各行各业都开始采用计算机及相应的信息技术进行管理和运营，这使得企业生成、收集、存贮和处理数据的能力大大提高，数据量与日俱增。企业数据实际上是企业的经验积累，当其积累到一定程度时，必然会反映出规律性的东西；对企业来，堆积如山的数据无异于一个巨大的宝库。在这样的背景下，人们迫切需要新一代的计算技术和工具来开采数据库中蕴藏的宝藏，使其成为有用的知识，指导企业的技术决策和经营决策，使企业在竞争中立于不败之地。另一方面，近十余年来，计算机和信息技术也有了长足的进展，产生了许多新概念和新技术，如更高性能的计算机和操作系统、因特网(intemet)、数据仓库(datawarehouse)、神经网络等等。在市场需求和技术基础这两个因素都具备的环境下，数据挖掘技术或称KDD(KnowledgeDiscovery in Databases；数据库知识发现)的概念和技术就应运而生了。

数据挖掘(Data Mining)旨在从大量的、不完全的、有噪声的、模糊的、随机的数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。

二、数据挖掘的基本任务

数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。

1. 关联分析(association analysis)

关联规则挖掘由Rakesh Apwal等人首先提出。两个或两个以上变量的取值之间存在的规律性称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性，还不断引入兴趣度、相关性等参数，使得所挖掘的规则更符合需求。

2. 聚类分析(clustering)

聚类是把数据按照相似性归纳成若干类别，同一类中的数据彼此相似，不同类中的数据相异。聚类分析可以建立宏观的概念，发现数据的分布模式，以及可能的数据属性之间的相互关系。

3. 分类(classification)

分类就是找出一个类别的概念描述，它代表了这类数据的整体信息，即该类的内涵描述，并用这种描述来构造模型，一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。

4. 预测(predication)

预测是利用历史数据找出变化规律，建立模型，并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性，通常用预测方差来度量。

5. 时序模式(time-series pattern)

时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样，它也是用己知的数据预测未来的值，但这些数据的区别是变量所处时间的不同。

6. 偏差分析(deviation)

在偏差中包括很多有用的知识，数据库中的数据存在很多异常情况，发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。

三、数据挖掘常的基本技术

1. 统计学

统计学虽然是一门“古老的”学科，但它依然是最基本的数据挖掘技术，特别是多元统计分析，如判别分析、主成分分析、因子分析、相关分析、多元回归分析等。

2. 聚类分析和模式识别

聚类分析主要是根据事物的特征对其进行聚类或分类，即所谓物以类聚，以期从中发现规律和典型模式。这类技术是数据挖掘的最重要的技术之一。除传统的基于多元统计分析的聚类方法外，近些年来模糊聚类和神经网络聚类方法也有了长足的发展。

3. 决策树分类技术

决策树分类是根据不同的重要特征，以树型结构表示分类或决策集合，从而产生规则和发现规律。

4. 人工神经网络和遗传基因算法

人工神经网络是一个迅速发展的前沿研究领域，对计算机科学人工智能、认知科学以及信息技术等产生了重要而深远的影响，而它在数据挖掘中也扮演着非常重要的角色。人工神经网络可通过示例学习，形成描述复杂非线性系统的非线性函数，这实际上是得到了客观规律的定量描述，有了这个基础，预测的难题就会迎刃而解。目前在数据挖掘中，最常使用的两种神经网络是BP网络和RBF网络不过，由于人工神经网络还是一个新兴学科，一些重要的理论问题尚未解决。

5. 规则归纳

规则归纳相对来讲是数据挖掘特有的技术。它指的是在大型数据库或数据仓库中搜索和挖掘以往不知道的规则和规律，这大致包括以下几种形式：IF … THEN …

6. 可视化技术

可视化技术是数据挖掘不可忽视的辅助技术。数据挖掘通常会涉及较复杂的数学方法和信息技术，为了方便用户理解和使用这类技术，必须借助图形、图象、动画等手段形象地指导操作、引导挖掘和表达结果等，否则很难推广普及数据挖掘技术。
四、数据挖掘技术实施的步骤

数据挖掘的过程可以分为6个步骤：

1) 理解业务：从商业的角度理解项目目标和需求，将其转换成一种数据挖掘的问题定义，设计出达到目标的一个初步计划。
2) 理解数据：收集初步的数据，进行各种熟悉数据的活动。包括数据描述，数据探索和数据质量验证等。
3) 准备数据：将最初的原始数据构造成最终适合建模工具处理的数据集。包括表、记录和属性的选择，数据转换和数据清理等。
4) 建模：选择和应用各种建模技术，并对其参数进行优化。
5) 模型评估：对模型进行较为彻底的评价，并检查构建模型的每个步骤，确认其是否真正实现了预定的商业目的。
6) 模型部署：创建完模型并不意味着项目的结束，即使模型的目的是为了增进对数据的了解，所获得的知识也要用一种用户可以使用的方式来组织和表示。通常要将活动模型应用到决策制订的过程中去。该阶段可以简单到只生成一份报告，也可以复杂到在企业内实施一个可重复的数据挖掘过程。控制得到普遍承认。

五、数据挖掘的应用现状

数据挖掘是一个新兴的边缘学科，它汇集了来自机器学习、模式识别、数据库、统计学、人工智能以及管理信息系统等各学科的成果。多学科的相互交融和相互促进，使得这一新学科得以蓬勃发展，而且已初具规模。在美国国家科学基金会(NSF)的数据库研究项目中，KDD被列为90年代最有价值的研究项目。人工智能研究领域的科学家也普遍认为，下一个人工智能应用的重要课题之一，将是以机器学习算法为主要工具的大规模的数据库知识发现。尽管数据挖掘还是一个很新的研究课题，但它所固有的为企业创造巨大经济效益的潜力，已使其很快有了许多成功的应用，具有代表性的应用领域有市场预测、投资、制造业、银行、通讯等。

美国钢铁公司和神户钢铁公司利用基于数据挖掘技术的ISPA系统，研究分析产品性能规律和进行质量控制，取得了显著效果。通用电器公司(GE)与法国飞机发动机制造公司(sNEcMA)，利用数据挖掘技术研制了CASSIOP．EE质量控制系统，被三家欧洲航空公司用于诊断和预测渡音737的故障，带来了可观的经济效益。该系统于1996年获欧洲一等创造性应用奖。

享有盛誉的市场研究公司，如美国的A．C．一Nielson和Information Resources，欧洲的GFK和ln．fratest Burk等纷纷开始使用数据挖掘工具来应付迅速增长的销售和市场信息数据。商家的激烈竞争导致了市场快速饱和，产品的迅速更新，使得经营者对市场信息的需求格外强烈利用数据挖掘技术所形成的市场预测能力和服务，使这些市场研究公司取得了巨大收益。

英国广播公司(BBC)也应用数据挖掘技术来预测电视收视率，以便合理安排电视节目时刻表。信用卡公司AlllelicallKxT,ress自采用数据挖掘技术后，信用卡使用率增加了10％一15％。AT&T公司赁借数据挖掘技术技术侦探国际电话欺诈行为，可以尽快发现国际电话使用中的不正常现象。