当前位置: 代码迷 >> 综合 >> 数据仓库,数据集市,数据孤岛,数据湖,数据中台
  详细解决方案

数据仓库,数据集市,数据孤岛,数据湖,数据中台

热度:58   发布时间:2023-12-02 22:33:55.0

数据仓库,数据集市,数据孤岛,数据湖,数据中台

文章目录

  • 数据仓库,数据集市,数据孤岛,数据湖,数据中台
    • 1.数据仓库
    • 2.数据集市
    • 3.数据孤岛
    • 4.数据湖
    • 5.数据中台

1.数据仓库

  • 定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理中的决策制定

  • 作用

    • 数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库
    • 数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改
      • 这解释一下主题主题域
        • 主题域:主题域我们可以理解为是一个分析领域,比如订单分析
        • 主题:每一个主题基本对应一个宏观分析领域,就拿上面的主题域订单分析来说,它所涉及到的分析对象为商品、地域、时间、类别,用户等,这些分析对象就是主题
  • 数仓是一种思想,数仓是一种规范,数仓是一种解决方案,数据仓库是一个功能概念,是将企业的各业务系统产生的基础数据,通过维度建模的方式,将业务数据划分为多个主题(集市)统一存储,统一管理。

  • 应用场景:一般都是作为商业智能系统、数据仪表盘等可视化报表服务的数据源。

2.数据集市

  • 定义:数据集市可以理解为是一种"小型数据仓库",它只包含单个主题,且关注范围也非全局,它属于数据仓库的下层
    • 就拿公司来形容,数据仓库就是全公司,数据集市就是部门
  • 分类
    • 独立数据集市,这类数据集市有自己的源数据库和ETL架构;
    • 非独立数据集市,这种数据集市没有自己的源系统,它的数据来自数据仓库
  • 优点:相比数据仓库数据集市是数仓之上更聚焦的业务主题合集,更偏向于应对业务数据快速高效应用的需求
  • 应用场景
    • 一般用于商业智能系统中探索式和交互式数据分析应用
  • 数据集市是一个结构概念,它可以说是数据仓库的一个子集

3.数据孤岛

  • 定义

    • 企业发展到一定阶段,出现多个事业部,每个事业部都有各自数据,事业部之间的数据往往都各自存储,各自定义。每个事业部的数据就像一个个孤岛一样无法(或者极其困难)和企业内部的其他数据进行连接互动。”我们把这样的情况称为数据孤岛
    • 简单说就是数据间缺乏关联性,数据库彼此无法兼容
  • 造成的原因

    • 业务系统之间各自为政、相互独立造成的数据孤岛,体现在业务不集成、流程不互通、数据不共享
    • 最重要还是因为企业的工作是以部门为主的功能型,这样的话每个部门都会有业务数据的产生,有对数据保存和使用的需要,不同部门对数据的定义和使用可能存在比较大的差异,所以各部门之间的数据不能互通
    • 信息部门建设的相对滞后,如果信息部门不能尽快满足业务对数据处理的要求,那业务部门就可能独自开发业务系统,这种情况还是普遍存在
  • 分类

    • 物理性数据孤岛
      • 数据在不同部门相互独立存储,独立维护,彼此间相互孤立,形成了物理上的孤岛
    • 逻辑性数据孤岛
      • 不同部门站在自己的角度对数据进行理解和定义,使得一些相同的数据被赋予了不同的含义,无形中加大了跨部门数据合作的沟通成本

4.数据湖

  • 定义
    • 2010年,Pentaho首席技术官James Dixon创造了“数据湖”一词
    • 他把数据集市描述成一瓶清洗过的、包装过的和结构化易于使用的水
    • 数据湖更像是在自然状态下的水,数据流从源系统流向这个湖。用户可以在数据湖里校验,取样或完全的使用数据
    • 可以理解为为未经处理和包装的原生状态“水库”
  • 特点
    • 从源系统导入所有的数据,没有数据流失。
    • 数据存储时没有经过转换或只是简单的处理。
    • 数据转换和定义schema 用于满足分析需求。
  • 应用场景
    • 可作为数据仓库或者数据集市的数据源
  • 数据湖是一种数据存储理念,存储企业各种各样的原始数据的大型仓库,包括结构化、非结构、二
    进制图像、音频、视频等等

5.数据中台

在这里插入图片描述

  • 定义

    • 数据中台是在政企数字化转型过程中,对各业务单元业务与数据的沉淀,构建包括数据技术、数据治理、数据运营等数据建设、管理、使用体系,实现数据赋能。数据中台,是新型信息化应用框架体系中的核心。
  • 特点

    • 利用大数据技术,对海量数据进行统一采集、计算、存储,并使用统一的数据规范进行管理,将企业内部所有数据统一处理形成标准化数据,挖掘出对企业最有价值的数据,构建企业数据资产库,提供一致的、高可用大数据服务。
    • 数据中台不是一套软件,也不是一个信息系统,而是一系列数据组件的集合,企业基于自身的信息化建设基础、数据基础以及业务特点对数据中台的能力进行定义,基于能力定义利用数据组件搭建自己的数据中台
  • 应用:政企行业大数据采集、治理、分析挖掘、指标应用等

  • 数据中台是一个逻辑概念,为业务提供服务的主要方式是数据API,它包括了数据仓库,大数据、数据治理领域的内容