数据仓库、OLAP跟数据挖掘的比较分析_数据仓库

数据仓库、OLAP和数据挖掘的比较分析
    我国银行的信息化可以大致划分为3个阶段：业务自动化、数据集中化、管理信息化。以工、农、中、建、交为代表的综合性大型商业银行都已陆续完成了第二阶段的转变——数据集中。如何运用银行在历年经营中积累的海量数据，利用信息技术的发展，将数据转变为信息，进而发觉其中存在的商业价值，是各大银行信息化第三阶段转变的关键。数据仓库、OLAP和数据挖掘等信息技术经历了数年的应用与发展，不断趋于成熟和完善，它们为银行的信息化管理提供了可靠的技术支撑平台。

一、数据仓库、OLAP和数据挖掘的关系和区别分析

1.数据仓库、OLAP和数据挖掘三者之间的关系
    在比较成熟的系统中，数据分析过程都是基于以数据仓库为基础，OLAP和数据挖掘相辅相成的分析模式（如图1所示）。数据仓库将来自于各种数据源的数据，根据不同的主题进行存储，并对原始数据进行抽取、转换和加载等一系列筛选和清理工作。OLAP则将数据通过多维视角和多种层次向用户进行多方式的呈现。数据挖掘则应用不同的算法，向用户揭示数据间的规律性，从而辅助商业决策。比如，在银行间盛行的CRM（客户关系管理）的应用中，数据仓库以面向“客户”为主题进行数据筛选、存储；OLAP负责分析客户的基本信息、储蓄账户信息、历史余额信息、银行交易日志等，以动态分析报表、直方图、折线图、饼图等形式展现给管理者，让他们从多方面了解和掌握客户的动态，从而发现客户的交易习性、客户流失形式，更好地针对不同类型的客户，在不同时期进行适应性产品的营销活动。数据挖掘则可以通过历史数据建立模型，在拟合历史的基础上，分析未来趋势，判断哪些因素的改变将很可能意味着客户的最终流失，进而避免其发生。

2.从数据库到数据仓库
    传统的数据库技术可以划分为两大类：操作型和分析型。操作型也称为事务处理，是对数据库联机的日常操作，通常是对一个或一组记录的查询和修改，主要是为企业的特定应用服务，注重响应时间，数据的安全性和完整性；分析型是针对特定问题的联机访问和分析，通过对信息多种可能的观察形式进行稳定、一致和交互性的存取，允许分析人员对数据进行深入观察。传统数据库能够满足企业日常事务处理工作，但难以实现对数据分析和多样化处理的要求，数据仓库的出现弥补了这一缺憾，将原来以单一的数据资源，即数据库为中心的数据环境发展成为一种面向主题的体系化环境，专门用于支持高层决策分析。数据仓库并不是取代数据库，绝大部分的数据仓库还是采用关系数据库管理系统来管理数据。

3.OLAP和数据挖掘的区别与联系
    OLAP和数据挖掘的主要区别在于：在辅助决策时，前者是基于用户建立的一系列假设驱动，通过OLAP来证实或者推翻这些假设，是一个演绎推理的过程；数据挖掘是通过归纳的方式，在海量数据中主动找寻模型，自动发掘隐藏在数据中的价值信息。比如：一个OLAP分析师可能认为，在某一区域开办信用卡的用户会更主动地进行消费。对于这个假定，他可能去观察在那些富裕地区申办信用卡的用户的信用卡账户属性。如果结果还不够明显，他也许要将年龄因素考虑进去。一直这样下去，直到他认为他找到了能够决定是否主动进行信用卡消费的各种变量，然后再根据这些变量，策划他的银行产品的营销方式，最大程度上将营销资源放在最可能接受他们产品的客户对象上。对于数据挖掘分析师，我们假设他也得出了和这个OLAP分析师同样的结论，但是他们得出结论的方式却孑然相反。数据挖掘分析师把各种因素或者变量放在数据挖掘工具中，由挖掘工具自行建立模型，在去除一系列与信用卡消费不相关或者不显著的因素或者变量后，也得到了同样的结果。在这里我们假设都是区域和年龄因素，当然也可能两者得出的因素或者变量不尽相同。简单地描述两者的区别：相对于OLAP，数据挖掘把更多的主动权交给了挖掘工具，在一定程度上，可以看成是人工智能的初级应用。此外，OLAP限于结构化数据，侧重与用户的交互、快速响应以及提供多维视图，而数据挖掘还可以分析诸如文本的、空间的和多媒体的非结构化数据。
虽然两者在不同角度和层面上存在很大的差异，但OLAP与数据挖掘也有一定的互补性。OLAP本身的分析结果能够为数据挖掘提供分析依据，数据挖掘可以拓展OLAP的分析深度，发掘更为复杂、细致的信息，它们之间的关系如图2所示。

二、数据仓库、OLAP和数据挖掘在银行业中的应用与比较

1.数据仓库设计
    银行在近10年来的信息化进程中，从开发应用储蓄、会计、信贷、资金等业务子系统，到建立以综合业务系统为核心，其他子系统为辅助的现在银行业系统架构，积累了丰富的信息资源。面对多样化的软、硬件平台，管理者和决策者如何有效地整合分散的应用系统以提取潜在的商业价值，成为新一代银行信息化发展方向的重要课题。目前，经过市场的推广和业界的肯定，数据仓库已逐渐成为银行加强经营管理、开发新型产品、提高服务水平、提供差异化服务的重要平台。
按照数据仓库以面向主题的应用原则，我们以个人信用卡消费趋势为主题，采用自底向上的设计方式，从各个业务子系统中整合信息资源，以“星形模型”为建模方式，按“数据方块”组织结构和提供数据，抽取数据时按照元数据进行规范和管理，建立“事实表”和“维度表”。模型设计如图3所示。
其中“信用卡交易事实表”位于星形模型的中心，要素主要来自于银行卡消费、信用卡消费的属性和信息表。周围关于“日期”、“银行机构”、“产品”和“客户”的4张维度表构成了星形模型的维度实体，它们可以从各个业务子系统中获得数据。数据仓库的主要实现步骤如下。
    1）数据提取：数据的提取采用元数据管理的方式，记录来源表、来源字段、目的表、目的字段、转换规则以及转换条件。如 “金额”字段来源于“银行卡消费表”的“交易金额”字段，或者来自于“信用卡消费表”中的“消费透支”字段等。
    2）数据转换：由于不同的业务子系统拥有不同的信息数据表，数据结构不尽相同，需要建立统一的业务规则和标准对数据进行逐个转换、清洁和集成。例如各个业务子系统的日期表结构不同，有的采用YYYYMMDD，有的定义为MMDDYYYY。在本例中，我们单独面向该主题建立一张日期维度表。又如各种“地址”字段在绝大多数早期系统中都简单地定义为字符串形式。在本例中，我们需要将其分解为：省、市、区、县等字段，并且需要进行格式化。
    3）数据装载：通过以上过程，建立数据仓库装载映射，装载子系统将提取和转换产生的映射，直接装入数据仓库，并加载元数据。
2.OLAP的展现
数据仓库的建立仅是第一步，它的价值还没有得到体现。OLAP技术提供了对数据仓库中的数据进行复杂显示和分析的方法。银行管理人员或者业务人员可以对数据库中的数据进行旋转、切片、钻取等分析操作，并通过各种专业图表展现给用户，获取直观的分析结果，得到或者验证结论与假设。
从图4中我们可以发现，各个用户不同期间的信用卡消费金额，从而分析出不同用户的差异消费倾向。例如在几位客户中，徐某的消费倾向相对其他客户比较低；在12月到2月期间，是每个用户消费的集中期，比其他月份消费的金额相对要高。结果显示，年末往往是客户消费旺盛期，消费金额普遍增长。针对此情况，我们可以在这一时期推出更多的银行与商户结合营销、购物返利、积分累进等手段，进一步增加信用卡的消费金额。
    从“信用卡交易事实表”中，以产品和客户为维度，了解不同客户对产品的需求变化，找出客户喜欢的产品类型，调整产品参数，并推出新型产品满足不同客户的需要。
从“信用卡交易事实表”中，以客户和机构为维度，了解不同开户地客户的信用卡消费倾向，对于银行的优质客户加强营销力度，多次拜访、增加交流次数，更大程度上留住客户。在此基础上，还可以增加客户的年龄维度，以三维角度观测消费倾向。
OLAP是一种可以多维分析的技术，对用户的决策分析能够提供较好的支持，将大量、复杂的业务数据快速、灵活地展现给用户，从而使决策者准确地掌握银行的经营状况，了解客户需求，把握市场动向，制订战略决策。

3.数据挖掘的应用
    OLAP在展现形式上，给予用户直观、灵活的多维视角，将人的思维以多种形式进行呈现，但数据中潜在的商业价值并没有被进一步挖掘出来。这就需要一种方法，自动统计和分析数据，发现和描述其中隐含的趋势或者内涵，而数据挖掘技术正是这一方法的体现。它将数据仓库的应用提升到更高的层次。数据挖掘技术有很多种，常用的是统计分析类和知识发现类，对应的挖掘方法也各有差异。在金融行业中，统计分析类是通用的一种挖掘手段。下面按照数据挖掘的主要步骤，说明数据挖掘的过程。
    （1）确定对象和目标
    研究对象：信用卡消费是同业竞争的焦点，是银行发展零售业务的重要指标，以信用卡消费额为研究对象，作为因变量Y，影响消费的主要因素有月收入，消费次数、持卡数、用卡奖励积分等。
研究目标：通过建立模型，判断各个因素与因变量Y（信用卡消费额）的显著性关系，并尝试对模型的现实意义进行分析解释。
    （2）数据选择
    选取上述以“信用卡消费趋势”为主题的数据仓库中的数据表，数据源来自于个人业务系统和信用卡系统中的信用卡、银行卡以及其他业务表
    （3）建立模型
模型是数据挖掘成功的关键，应用于银行业数据挖掘统计分析的模型都有着各自的优缺点。对于多个自变量来说，主要有多元线形回归模型、多元逻辑回归模型、F分数模型等。考虑到自变量可能包括定性和定量两种属性，尝试使用多元逻辑回归模型。
    （4）结果分析
    将多元逻辑回归方法建立的信用卡消费金额模型结果用表格表示。从表中可以得出，信用卡消费模型为：
f(x)=1.2148+0.5734*income+0.1246*consum+0.1349cardnum
以上模型中各个自变量对因变量的解释都有一定的实际意义，月收入越多、持卡量越大、消费次数越多，消费金额也就越大，模型的结果与实际业务情况比较一致。

三、结论与展望
    通过上述比较分析，我们可以发现3种技术分别处于不同的应用层面。数据仓库将面向不同主题的数据进行格式化存储，OLAP和数据挖掘则根据不同的应用人员进行数据再处理。数据仓库的海量数据只有通过OLAP和数据挖掘才能成为有价值的信息，体现建立数据仓库最终价值。而数据仓库经过筛选和清理，对来自不同数据源的结构化和非结构化数据进行格式化预处理，为OLAP和数据挖掘提供高质量数据，简化了OLAP和数据挖掘的过程和步骤，提高两者的工作效率。基于这种特性，一种新型的模式——DW(数据仓库)＋OLAP（联机分析处理）＋DM（数据挖掘）->DSS（决策支持系统）由此得到开拓和发展。这种模式也会因其融合三者的特性而产生的强大辅助决策功能得到广泛应用，成为未来金融信息化发展的焦点所在。

转自：http://zjd9961.blog.163.com/blog/static/33892990201049013327/