请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

spark streaming 读取kafka的数据量不准确,请问是什么原因

根据视频中的方法配置了整套运行环境,然后用flume接收nginx的日志,我模拟了Nginx的日志,每0.1秒增加一条数据,然后spark streaming接收到流之后进行清洗之后存入HBase,其中我特意做了总数的count,用incrementColumnValue的方法自增,一共四十多万条数据,跑完之后发现HBase中统计的数据量才两三万,请问这是什么原因?谢谢!

正在回答 回答被采纳积分+3

1回答

Michael_PK 2018-01-25 16:56:30

这个需要你一步步排查,从flume到kafka有没有丢,让kafka到streaming有没有丢

0 回复 有任何疑惑可以回复我~
  • 提问者 天狼武士 #1
    查了,kafka倒是没有丢,应该是到streaming的时候丢了吧,不过我用的是Receiver不是Direct,这个有关系吗?
    回复 有任何疑惑可以回复我~ 2018-01-25 18:12:38
  • Michael_PK 回复 提问者 天狼武士 #2
    问题不是太大。kafka有一个ack参数你可以设置下
    回复 有任何疑惑可以回复我~ 2018-01-25 18:46:37
  • 提问者 天狼武士 回复 Michael_PK #3
    好的!我试试!谢谢!
    回复 有任何疑惑可以回复我~ 2018-01-25 19:16:09
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信