当前位置: 代码迷 >> 综合 >> 大数据系列之-初出茅庐
  详细解决方案

大数据系列之-初出茅庐

热度:68   发布时间:2024-02-23 02:15:04.0

技术栈全貌

大数据平台技术栈

下面自底向上介绍各个层的主要项目。

1 采集层和传输层

采集层

 

  • Sqoop

在hadoop和关系型数据库之间转换数据。

  • Flume

Flume是一个分布式的高可用的数据收集、聚集和移动的工具。通常用于从其他系统搜集数据,如web服务器产生的日志,通过Flume将日志写入到Hadoop的HDFS中。

 

Flume

  • Canal

数据抽取是 ETL 流程的第一步。我们会将数据从 RDBMS 或日志服务器等外部系统抽取至数据仓库,进行清洗、转换、聚合等操作。在现代网站技术栈中,MySQL 是最常见的数据库管理系统,我们会从多个不同的 MySQL 实例中抽取数据,存入一个中心节点,或直接进入 Hive。市面上已有多种成熟的、基于 SQL 查询的抽取软件,如著名的开源项目 Apache Sqoop,然而这些工具并不支持实时的数据抽取。MySQL Binlog 则是一种实时的数据流,用于主从节点之间的数据复制,我们