采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
根据视频中的方法配置了整套运行环境,然后用flume接收nginx的日志,我模拟了Nginx的日志,每0.1秒增加一条数据,然后spark streaming接收到流之后进行清洗之后存入HBase,其中我特意做了总数的count,用incrementColumnValue的方法自增,一共四十多万条数据,跑完之后发现HBase中统计的数据量才两三万,请问这是什么原因?谢谢!
这个需要你一步步排查,从flume到kafka有没有丢,让kafka到streaming有没有丢
查了,kafka倒是没有丢,应该是到streaming的时候丢了吧,不过我用的是Receiver不是Direct,这个有关系吗?
问题不是太大。kafka有一个ack参数你可以设置下
好的!我试试!谢谢!
登录后可查看更多问答,登录/注册
Flume+Kafka+Spark Streaming 构建通用实时流处理平台
1.7k 89
1.1k 14
2.3k 13
1.7k 12
2.4k 12