当前位置: 代码迷 >> 数据仓库 >> 关于数据仓库提议、感想
  详细解决方案

关于数据仓库提议、感想

热度:55   发布时间:2016-05-05 15:45:30.0
关于数据仓库建议、感想

现代数据仓库之父,William H.Inmon大师的著作:《数据仓库(Building the Data Warehouse)》定义:
数据仓库是:面向主题的、集成的、稳定的、面向时间的数据集合。

  • 数据平台之问(当前问题现象)
    • 需求响应慢
    • 数据质量不可靠
    • 数据不可信
    • 维护成本高
    • 数据安全不可控
  • 数据仓库
  • 维度
  • 业务建模
    • 用户
    • 注册
    • 登陆
    • 激活
    • 保留率 
    • 客户端action
    • 客户端接口
    • tips、感想

数据平台之问(当前问题现象)

需求响应慢

一个需求就得半个小时,一个小时之久,降低了数据变现、问题排查速度。

数据质量不可靠

经常存在数据不一致情况,有如下可能,

1:上下游出错,如上游etl数据库导表同步延迟,同步失败

2:统计方式不一致,如统计ip地域时,有可能因为ip数据字典文件不一致,导致统计地域值不同。

3:哥们,你真的算错了,你再看看脚本

数据不可信

老大有一天突然问你,你这个数准吗,你经得起质疑吗,敢于拍着胸口说,That's correct。

数据就是自己的招牌,不要砸了自己的招牌。

维护成本高

数据冗余,带来的更新成本,一致成本

运维,补数据成本

元数据管理成本

数据安全不可控

传统的业务系统天生就带有安防性质,数据分散在多个业务系统与数据库,数据泄露,也会隔离在某个业务领域。

而数据仓库则不然,业务的覆盖范围广,时间周期长,数据泄露的损失非常大。

数据仓库

星形模型

事实表被维度所包围,且维度表没有被新的表连接。

雪花模型

事实表被多个维度表,一个或多个层次所包围。

雪花模型一般再处理大的,且相对静态的层次时候使用。

多维模型

层次数据陆,只有一个结构(立方体Cube)相当于一个多维数组,宽维度表。

维度

数据的粒度与层次

注册的渠道,一级渠道还是四级渠道。

缓慢变化维

用户的个人信息,地址

快速变化维

用户的好友,积分,产品的价格

大维度,迷你维

宽维度表基础之上,可以抽出小的维度表

价值稀释比(价值/时间)

数据的价值随着时间的变化。

业务建模

用户

用户维度信息表

注册

注册方式、来源渠道。。。

登陆

登陆方式、地域。。。

激活

激活渠道。。。

保留率 

第二批次,围绕注册、登陆、用户开展的

客户端action

客户端接口

tips、感想

终端属性 注册、用户、登陆是公司核心,流量是基础,其他产品围绕流量变现。

数据仓库建模,第一要保证所有原始数据入库,保证数据可追查、可变现。

第二针对核心业务,用户、注册、登陆,etl,形成大表,便于查询,按天分区

第三对于在核心业务之上,衍生出来的第二批次业务,只保留当天etl表,历史etl数据不再保存

需要考虑数据仓库现状,是基于hadoop&hive的,还是oracle的。不同的数据仓库因为成本运维不多,带来的设计方式也不同。