功能介绍
(python模拟产生日志,flume采集日志文件更新【一分钟一更新】,作为kafka的生产者连接存入topic,idea编写kafka消费者消费数据,消费的同时存储至hbase)
步骤
1.编写python日志产生程序
generatorLog.py
2.定时调用py执行日志产生
定时运行程序
crontab -e
*/1 * * * * /home/hadoop/project/shell/log_generator.sh
关闭
crontab -r
3.启动kafka服务
kafka-server-start.sh -daemon $KAFKA_HOME/config/server.properties &
4.编写flume配置 exec-memory-avro,并启动服务
flume-ng agent
–name exec-memory-kafka
–conf $FLUME_HOME/conf
–conf-file /home/hadoop/project/flume/exec-memory-kafka.conf
-Dflume.root.logger=INFO,console
可同时启动kafka消费者直观查看数据
kafka-console-consumer.sh --bootstrap-server 192.168.70.129:9092 --topic flume-kafka
5.启动hadoop与hbase
6.hbase数据库建表
create ‘course_clikcount’,‘info’
7.编写kafka消费者程序,整合kafka与sparkstreaming(包含基本的数据清洗)
8.启动程序查看hbase数据库表中是否有数据存在。