请稍等 ...

kafka flume log4j

请问下为什么不直接通过kafka api 从web server上收集并存储数据呢为什么还要用log4j先存到本地再用flume 转移？假如要加一步ETL 或者进行数据清洗是放在哪一步呀？谢谢老师

355

收起

提交取消

1回答

Michael_PK 2023-02-02 00:02:25

kafka是在大数据集群中的，webserver就是普通的机器，是没有其他的大数据组件安装的。

比如：查看新闻，你在看新闻时，就有日志产生，那么这个日志都是先到日志服务器的，后面才是将这写日志交给大数据处理，才会有后续的flume kafka spark等引擎的使用。

ETL操作一般都是在大数据分布式计算层面做的。也就是flume到hdfs，然后spark或者其他做。或者是kafka到流式引擎，在这层来做数据清洗

0 回复有任何疑惑可以回复我~

登录后可查看更多问答，登录/注册

实战Spark3实时处理，掌握两套企业级处理方案

了解课程

问答作业

2.0k 15

1.1k 15

1.3k 12

1.0k 11

1.3k 9

购课补贴
联系客服咨询优惠详情

慕课网APP
您的移动学习伙伴

扫描二维码
关注慕课网微信公众号