当前位置: 代码迷 >> 综合 >> python+flume+kafka+SparkStreaming+HBase实现日志采集实时数据分析功能
  详细解决方案

python+flume+kafka+SparkStreaming+HBase实现日志采集实时数据分析功能

热度:70   发布时间:2023-12-04 03:21:39.0

功能介绍

(python模拟产生日志,flume采集日志文件更新【一分钟一更新】,作为kafka的生产者连接存入topic,idea编写kafka消费者消费数据,消费的同时存储至hbase)

步骤

1.编写python日志产生程序
generatorLog.py
2.定时调用py执行日志产生
定时运行程序
crontab -e
*/1 * * * * /home/hadoop/project/shell/log_generator.sh
关闭
crontab -r
3.启动kafka服务
kafka-server-start.sh -daemon $KAFKA_HOME/config/server.properties &
4.编写flume配置 exec-memory-avro,并启动服务
flume-ng agent
–name exec-memory-kafka
–conf $FLUME_HOME/conf
–conf-file /home/hadoop/project/flume/exec-memory-kafka.conf
-Dflume.root.logger=INFO,console

可同时启动kafka消费者直观查看数据
kafka-console-consumer.sh --bootstrap-server 192.168.70.129:9092 --topic flume-kafka
5.启动hadoop与hbase
6.hbase数据库建表
create ‘course_clikcount’,‘info’
7.编写kafka消费者程序,整合kafka与sparkstreaming(包含基本的数据清洗)
8.启动程序查看hbase数据库表中是否有数据存在。

在这里插入图片描述