Thinking in BigDate（10）大数据之数据挖掘技术（1）_数据仓库

Thinking in BigDate（十）大数据之数据挖掘技术（1）

当大数据谈到这里，已经废话加有用的话一大堆。就离那一步实施还是差这一点距离。在上篇博客或以前的博客，我们谈到，我们的定位，是将传统数据挖掘的数据转移到达数据平台上去处理，去节省时间，节省资源。但问题是，当我们没有这么大的数据，或我们有这么大的数据，我们应该从哪一步入手。这就是我们接下来的几篇博客，要探讨的问题。也是大数据的核心：数据挖掘。从头至尾我们都脱离不了数据挖掘。其实从大学到现在一直都接触数据挖掘，但是我们不关心是什么是数据挖掘，我们关心的是我们如何通过数据挖掘过程中找到我们需要的东西，而我们更关心的是这个过程是什么？如何开始？

作为初学者的概念梳理是很有必要的。如果是大牛，这些博客就略过吧。总结的过程也是一个学习的过程，通过有章节的整理对目前正在的学习的内容做规整。在这个过程中我们会从具体的项目实施中去谈数据挖掘，中间会贯穿很多的概念，算法，业务转换，过程，建模等等。

我们列一下要谈论的话题：

1、什么是数据挖掘及为什么要进行数据挖掘？

2、数据挖掘在营销和CRM中的应用？

3、数据挖掘的过程

4、你应理解的统计学

5、数据描述与预测：剖析与预测建模

6、经典的数据挖掘技术

7、各类算法

8、数据仓库、OLAP、分析沙箱和数据挖掘

9、具体的案例分析

什么是数据挖掘？是知识发现、商业智能、预测分析还是预测建模。其实都可以归为一类：数据挖掘是一项探测大量数据以发现有意义的模式（pattern）和规则（rule）的业务流程。

这里谈到了发现模式与规则，其实就是一项业务流程，为业务服务。而我们要做就是让业务做起来显得更简单，或直接帮助客户如何提升业务。在大量的数据中找到有意义的模式和规则。在大量数据面前，数据的获得不再是一个障碍，而是一个优势。在现在很多的技术在大数据集上比在小数据集上的表现得更好——你可以用数据产生智慧，也可以用计算机来完成其最擅长的工作：提出问题并解决问题。模式和规则的定义：就是发现对业务有益的模式或规则。发现模式就意味着把保留活动的目标定位为最有可能流失的客户。这就意味着优化客户获取资源，既考虑客户数量上的短期效益，同时也考虑客户价值的中期和长期收益。

而在上面的过程，最重要的一点就是：如何通过数据挖掘技术来维护与客户之间的关系，这就是客户关系管理，CRM。

专注于数据挖掘在营销和客户关系管理方面的应用——例如，为交叉销售和向上销售改进推荐，预测未来的用户级别，建模客户生存价值，根据用户行为对客户进行划分，为访问网站的客户选择最佳登录页面，确定适合列入营销活动的候选者，以及预测哪些客户处于停止使用软件包、服务或药物治疗的风险中。

两种关键技术：生存分析、统计算法。在加上文本挖掘和主成分分析。

经营有方的小店自然地形成与客户之间的学习关系。随着时间的推移，他们对客户的了解也会越来越多，从而可以利用这些知识为他们提供更好的服务。结果是：忠实的顾客和盈利的商店。

但是拥有数十万或数百万客户的大公司，则不能奢望与每个客户形成密切的私人关系。面临这样困境，他们必须要面对的是，学会充分利用所拥有的大量信息——几乎是每次与客户交互产生的数据。这就是如何将客户数据转换成客户知识的分析技术。

数据挖掘是一项与业务流程交互的业务流程。数据挖掘以数据作为开始，通过分析来启动或激励行为，这些行为反过来又将创建更多需要数据挖掘的数据。

因此，对于那些充分利用数据来改善业务的公司来说，不应仅仅把数据挖掘看作是细枝末节。相反，在业务策略上必须包含：1、数据收集。2、为长期利益分析数据。3、针对分析结果做出分析。

CRM（客户关系管理系统）。在各行各业中，高瞻远瞩的公司的目标都是理解每个客户，并通过利用这种理解，使得客户与他们做生意更加容易。同样要学习分析每个客户的价值，清楚哪些客户值得投资和努力来保留，哪些准许流失。把一个产品为中心的企业转变成以客户为中心的企业的代价超过了数据挖掘。假设数据挖掘的结果是像一个用户推荐一个小首饰而不是一个小发明，但是如果经理的奖金取决于小发明的季度销售量而不是小首饰的销售量（即便后者更为有利可图或者收获长期盈利更多的客户），那么数据挖掘的结果就会被忽视，这就导致挖掘结果不能产生决策。

我们要学会：从记录的内容中学习。

为什么是现在要学会：

·数据正在产生，不断的产生，不断的更新

·数据正在存储在数据仓库中——数据仓库以一个共同的格式汇集许多不同来源的数据，具有一致格式的关键字和字段定义。业务系统旨在快速向终端提供结果，就对数据的格式和字段有额外的要求。数据仓库的建立是为提供决策而设计，简化数据挖掘工作者的工作。

·计算能力能够承受

·对客户关系管理的兴趣非常强烈

·商业的数据发掘软件已经形成

数据挖掘人员的技能：

·需要有数字技能

·Excel表格使用能力，现在Excel表格处理能力相当强大。自从Office 365出来之后，此势不可小觑。

·一种态度：不畏惧为了得到结果可能需要处理大数据量和复杂的过程。处理大型数据集、数据仓库以及分析沙箱是数据挖掘成功的关健。数据挖掘不仅仅是产生技术结果，结果必须用来帮助人们（或者帮助越来越多自动化的流程）做出更明智的决定。产生技术结果只是第一步，通过结果了解真正的需求，把结果转化为信息，信息转化为行动，行动转化为价值，才是真正的目的。

数据挖掘的良性循环的重心在于业务的结果，而不只是利用先进的技术。

·识别业务机会

·挖掘数据将其转换成可操作的信息

·根据信息采取行动

·度量结果

数据挖掘成功的关键是把其结合到业务流程中，并能够促进数据挖掘人员和使用结果的业务用户之间的通信。首先，必须明确，找到合适的业务需求，很多的人员，没有在意这一点，导致解决的是对业务没有帮助的问题。

在面临不断日新的社会，进步，远不在改变，而在与变中的不变。即使改变时绝对的，但是仍有未改进之处以及没有可能改变的方向：如果经验不会保留，永远保持幼年，那些不吸取教训的人，注定要重蹈覆辙。

当与业务人员讨论数据挖掘的机会时，确保重心在业务而不是技术和算法。让我们的技术专家专注技术，同时让我们业务专家专注业务。

电信客户流失：

一个关键因素是过度呼叫，新的客户在第一个月使用的分钟数超过了他们的费用的计划，当第一月的的账单往往在第二月中旬送达客户，客户才了解费用使用计划。到那个时候，客户已经在第二个月产生了一个很大的账单，导致客户很不快乐。遗憾的是客户服务人员也要等相同的时间等账单周期到之后才能检测到过度使用的状况，致使没有时间来主动反应。其实在这个过程中导致问题产生的原因就是，反馈时间的问题，如果在这个月末，分析报告能够给出明确的预测或建议，上面的问题就会有很大的改善。这中间可以能也会包括运营商之间的手段问题，这个暂时不考虑。

上述问题折中的解决办法：新生的数据挖掘组拥有资源，而且已经鉴别和调查了适当的数据源。采用一些相当简单的程序，该小组能够在这些客户中第一次过度呼叫时把他们标识出来。使用这个信息，客户中心能够联系处于风险中的客户，并在第一个账单失效之前把他们移到适当的账单计划中。

问题很简单：在实验室工作的很好的模型，为什么走出实验室就不能工作？一个问题在于它通过记忆数据过拟合了模型集。这就导致在实验室很成功的模型，拿到实际就令人很失望。建模的目标不是产生最好的模型。数据挖掘的目标是能处理现实世界中的问题，从而可以影响某种变化。你需要的稳定，即该模型不仅在模型集中工作的很好，在未知的数据上工作的也得很好。

导致不稳定有四大原因：

1、把事情搞错：由于不了解具体的需求，就动手。导致矛盾在实际过程中爆发。

2、过拟合：该模型记忆模型集，而不是认识更多的一般模式。人们很在意认识模式（字面上的认识），致使认识模式可能脱颖而出。而认识模式（实际意义）却并非如此。一个过拟合的例子。

3、样本偏置：利用建立模型的数据无法准确地反映真实的世界，当不是通过原始数据的随机抽样创建模型时，这问题就可能发生。比如：一个地区的数据与另一个地区数据的关键词不同，所以不能硬性的把一个地区的数据强加到另一个地区。

4、未来的事情可能与过去的不一样：模型是建立在历史数据上的，但利用在其他时段。这里隐含一个假设——用过去发生的事情指导未来发生的事情。虽然不要求模型总是假设过去式未来的序幕。

时间帧：

模型集中的每个变量都有一个与它相关的时间帧，它描述了该变量产生作用的时间段。可以理解为对在过去一段时间的数据的整合，超过这个时间的数据就作废。

输入变量和目标变量都有时间帧。输入变量的时间帧严格早于目标变量，任何建立在此模型集上的模型都是一种预测模型。另一方面：当输入变量和目标来自同一个时间帧内，它们产生剖析模型。

预测模型：

很多数据挖掘问题都可以概括为预测问题：基于过去的响应，基于过去的相应，谁将会有相应？基于过去的注销记录，谁有一个不良风险？解决问题最好的办法是限定输入变量严格产生于目标变脸之前。

如：考虑到一个零售商，它拥有一个目标网站，并计划在9月份举行一个活动。我们的目的，收集9月1日之前的数据，并对这些数据建立一个模型，以确定哪些客户才加该活动，以及应采用哪些的营销措施。应该使用什么样的数据建立模型？而且应该使用相同时间段的数据进行此模型评分。把日历回翻一年，即前一年的9月1日，对那个用户数据作为一个起点，然后把结束日期放到去年年底的营销数据上，这种就保证没有“未来”数据的输入信息会影响模型的目标估计能力。

预测面临的挑战是创建模型集所需的工作量。把日历往回翻，这一做法写起来很容易，但是在以客户为中心、规范化的数据仓库中很难实现。目的结果是为了获取更稳定的结果，这些模型能发现导致客户的一些重要行为的原因。

剖析模型：

剖析，从字面上的理解是，基于人口统计变量，例如：地理位置、性别和年龄等。剖析模型能发现同一条件下的关系，但他们不能指出原因和影响。出于这个原因，剖析模型经常使用客户的人口统计信息作为输入，而把客户行为作为目标，在这种情况下，确定原因和影响更直观。

有指导数据挖掘方法：

·把业务问题转换为数据挖掘问题

·选择合适的数据

·认识数据

·创建一个模型集

·修复问题数据

·转换数据以揭示信息

·构建模型

·评估模型

·部署模型

·评估结果

·重新开始

（有指导数据挖掘过程）

下面我们将分别阐述接下来的10个步骤，来完成一个完整的有指导的基本数据挖掘过程。

参考《数据挖掘技术》