请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

kafka flume log4j

请问下 为什么不直接通过kafka api 从web server上收集并存储数据呢 为什么还要用log4j先存到本地 再用flume 转移? 假如要加一步ETL 或者进行数据清洗 是放在哪一步呀? 谢谢老师

正在回答 回答被采纳积分+3

1回答

Michael_PK 2023-02-02 00:02:25

kafka是在大数据集群中的,webserver就是普通的机器,是没有其他的大数据组件安装的。

比如:查看新闻,你在看新闻时,就有日志产生,那么这个日志都是先到日志服务器的,后面才是将这写日志交给大数据处理,才会有后续的flume  kafka spark等引擎的使用。

ETL操作一般都是在大数据分布式计算层面做的。也就是flume到hdfs,然后spark或者其他做。 或者是kafka到流式引擎,在这层来做数据清洗

0 回复 有任何疑惑可以回复我~
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信