?
数据仓库数据导入:
格式化
获取传统数据库更新数据 1.时间戳 ?2.增量文件 3.日志文件 4.嵌入代码 5.前后映像
时基变化 数据必须附有时间元素
?
----------------------------------
?
数据模型 information system architecture
?
有三个层次:1.高层建模(ERD实体关系层)
? ? ? ? ? ? 2.中间层建模(DIS数据项集)
? ? ? ? ? ? 3.底层建模(物理层)
1.高层建模(ERD实体关系层)
用实体和箭头描述,通过不同视角描绘出的ERD图的总和
?
2.中间层建模(DIS数据项集)
对ERD中的每个实体,都要建立一个中间层模型
1.初始数据组:键码+属性
2.二次数据组
3.连接件
4.数据类型(拓展出来的数据组)
每个数据组都通常表示一张表
?
3.物理模型
是基于中间层建模的结果,创建实际物理存储
3.1节省IO,将经常用到并且很少更新的数据作为冗余存储在表中(摘要描述作为冗余)
3.2按照访问频率拆分数据到不同的表中(银行账户,余额作为单独的表存储)
3.3存储计算结果(每月的消费存储在消费表中,可用于每年消费计算)
3.4数据仓库需要“创造的索引”(为终端用户感兴趣的项目建立一个概要文件,包括最大消费,最不活跃的账户,最近的发货等等)
3.5数据参考完整性,在操作型环境中数据之间的动态连接,在数据仓库中数据量打,数据不更新,数据按时间标示,关系不静态,面向多种业务,需要“人工关系”(初始数据和二次数据的关系),人为添加的
?
------------------------------------------------------------------
?
数据快照
包括:键码,时间,初始数据,二次数据(如销售产品,销售时间,产品信息,销售时股票优惠等信息)
?
-------------------------------------------------------------------
?
元数据记录在数据仓库的位置
程序数据结构
DSS数据结构
源数据
数据加入数据仓库的转换
数据模型
数据模型和数据仓库的关系
抽取数据的历史记录
?
---------------------------------------------------------------------
?
事件触发仓库快照机制
?
----------------------------------------
?
即时策略
1.1(定时计算)使用脱机计算和定期分析进行,将当前数据(关系数据库)和计算好的历史的中间计算结果作为输入,进行脱机计算
1.2(个性化)个性化计算,将数据仓库中的数据,进行个性化分析,对一个ID进行分析(上次购货日期,上次购货项目,市场分类,体验情况),个性化对于销售人员,人事都有意义
1.3(转变需求)信息审核,在贷款时,为了分析用户信用,需要大量历史数据计算偿还历史,私有财产,收入等等;可以提供预核准,预分析程序,计算1.客户识别信息2.核准信贷限制3.特殊的核准限制
?
----------------------------------------
?
?
星型连接
数据最大的作为主表,其他表都跟主表有关联,称为维表
对于DSS系统,星型模型在处理冗余数据,获得管理数据有优势
对于其他系统,在更新操作过多时,管理星型模型缺点太多
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?