数据仓库开发的流程是确定 用户需求——>设计和建立数据库——>提取和加载数据 ,
其中设计和建立数据库步骤中分为:
- 确定事实表和维度表
- 设计事实表
- 设计维度表
- 实现数据库设计
而提取和加载数据分为:
- 校验数据
- 迁移数据
- 数据净化
- 转换数据
因此当我们有建立数据仓库的需求时候,首先按照需求设计数据仓库的模型,然后根据设计好的模型对原有数据库进行ETL处理。
Pentaho根据整个流程整合需要的工具。BI Server是整个BI套件的门户,用来整合各种资源。其他的组件通过publish操作将定义好的模型信息发布到平台上,平台会自动读取这些信息更新自身的数据源等。Design Studio是支持Action Sequence图形化开发的工具,可以定义一序列操作来完成整个BI过程。Pentaho Metadata元数据管理借助于图形化对元数据建模。Kettle ETL主要对源数据库数据进行转换抽取加载等工作。Mondrian OLAP是针对多维分析提供的引擎。Weka是进行数据挖掘工具。Pentaho Reporting工具用来设计报表。Pentaho Dashboard支持仪表盘的开发。
由于我们是研究机构,主要针对开源系统进行开发和研究,因此采用了社区版的Pentaho 。
(一)部署Pentaho BI Server
Pentaho BI Server包含BI server 和Admin Console两部分。最新的稳定版本是Pentaho4.5.0。
下载地址是http://sourceforge.net/projects/pentaho/files/Business%20Intelligence%20Server/
解压后有administration-console和biserver-ce两个文件夹。其中biserver-ce自带有tomcat。
打开biserver-ce文件夹可以使用start-pentaho.bat运行BI 服务器。如果没有报错的情况下,在IE浏览器打开http://localhost:8080/pentaho 可以看到管理界面:
点开登陆界面下方的Evaluation Login,可以展开两个测试用户joe和suzy,密码都是password。
登进去之后就可以看到管理界面了。要打开左边的导航栏就点开view菜单项的browser选项。导航栏上可以看到已经配好的数据源,以及报表和多维分析的例子。
我们可以使用系统自带的建立报表或者多维分析的功能进行测试。要使用自己的数据源进行测试,需要新建数据源。添加对应的数据源驱动包到%biserver目录%\biserver-ce-4.5.0\biserver-ce\tomcat\lib中。在菜单栏中选择File->new->data source选项将进入新建数据源导航栏。可以根据自己的数据库建立connection。
New Anaylze例子需要使用已经写好的多维分析的schame才能进行分析。系统自带了一些功能,再建立数据源的同时可以建立一个简单的schame,这远远不能满足我们的需求。因此我们需要借助于Pentaho家族中另一个成员来建立起自己数据仓库立方体即petaho schame workbench。
下一节将讲述如何使用它建立起一个数据立方体进行多维分析。