写在前面的话
你好,我是李鹏程,高级数据工程师、大数据讲师。这次给大家带来的是《数据仓库原理&实战》专栏。
数据仓库基本在各个企业都均有落地,主要是因为历史数据积存、数据分析的需要。而且随着互联网的快速发展、数据量与日俱增的情况下,更多的企业开始从传统数据仓库向大数据数据仓库转型。
传统数据仓库技术较成熟,易用性更为优秀;大数据数据仓库整体技术较新,而且落地过程是有一定过渡的,在选型和建模等方面。专栏中的技术方案主要以大数据数据仓库展开,整体上拔高了一个维度,帮助更好的完成在大数据端的理论落地;虽然以大数据数仓为技术主导,但理论部分是两者通用的,能够帮助构建对数据仓库的整体概念,而且这部分理论在传统数仓中实践起来更为容易。
那到底什么是数据仓库?它是如何发展来的?它的架构、建模是怎样的?在这个专栏中,都会为大家讲解到。
除了理论部分,在实战部分还会带来一个大数据数仓的案例,包含集群搭建和企业级操作实战,更好的助力知识的运用。
专栏内容
专栏内容一共分为 5 部分,数据仓库简介、架构、建模、最佳实践、项目实战。
在简介部分,主要介绍下数据仓库的诞生背景、基本概述、技术方案。在这部分全面了解、掌握数据仓库的前世今生,它与数据库的区别,两种技术方案的异同等内容。
架构部分,首先讲解数据仓库的整体架构,然后分别展开讲解 ETL 流程、数据积存(ODS 层)、数据分析(DWD、DWS、ADS 层)在企业落地时的具体细节。
建模方案部分,主要讲解 OLTP、OLAP 建模概念与异同;然后对 OLAP 展开,讲解 ROLAP、MOLAP 建模理论,最后了解下多维分析的基本术语。
在最佳实践部分,会讲解在企业实践中数据仓库的表类型、ETL 策略、任务调度。
最后的项目实战,会进行大数据数据仓库集群的搭建(Hadoop、Hive、Tez、Sqoop、Azkaban、Presto),并完成复购率、GMV(成交总额)两个案例的整体流程实战。
学习指南
在整体专栏学习的时候,先不要陷入细节中,可以快速浏览下专栏内容,在整体上有个大概的把握,然后再阅读每一部分内容。否则,不见全貌,而陷入对细节的纠结中,会对之后的学习产生不利的影响。而且专栏内容一定是要看好几遍的,第一遍只是帮助你搭建一个知识框架,之后的每一遍阅读都会使你对知识的理解更为深入;由浅入深,这才是知识的学习步骤。
而且在技术学习中,尤其在线上专栏中,大部分学员会在环境搭建这里花费很长时间,然后学习热情被消耗殆尽,专栏也就仅仅完成了从入门到放弃的劝退功能。所以环境的开箱即用是最重要的,尽量在环境上少花费时间,因为在企业开发中,环境都是现成的;如果真的需要亲自去完成环境搭建,也不需要记住每一步过程,留个文档,甚至写个脚本复用就好。
所以在专栏中,会提供一键安装脚本,帮助在集群中快速建立大数据数据仓库环境。只需要大家在 Virtual Box 上准备 3 台 CentOS 7.2 的虚拟机环境即可,当然虚拟机镜像也会提供。环境的快速搭建,帮助数仓开发的学员迅速进入实际操作环节,而且对运维的学员也是一种福利。
好,整体交代清楚后,来一起进行数据仓库正式的学习吧。