请稍等 ...

spark streaming 读取kafka的数据量不准确，请问是什么原因

根据视频中的方法配置了整套运行环境，然后用flume接收nginx的日志，我模拟了Nginx的日志，每0.1秒增加一条数据，然后spark streaming接收到流之后进行清洗之后存入HBase，其中我特意做了总数的count，用incrementColumnValue的方法自增，一共四十多万条数据，跑完之后发现HBase中统计的数据量才两三万，请问这是什么原因？谢谢！

天狼武士 2018-01-25 15:37:23

源自：12-20 -将项目运行在服务器环境中

765

收起

提交取消

1回答

Michael_PK 2018-01-25 16:56:30

这个需要你一步步排查，从flume到kafka有没有丢，让kafka到streaming有没有丢

0 回复有任何疑惑可以回复我~

收起回答

提问者天狼武士 #1

查了，kafka倒是没有丢，应该是到streaming的时候丢了吧，不过我用的是Receiver不是Direct，这个有关系吗？

回复有任何疑惑可以回复我~ 2018-01-25 18:12:38

Michael_PK 回复提问者天狼武士 #2
```
问题不是太大。kafka有一个ack参数你可以设置下
```
回复有任何疑惑可以回复我~ 2018-01-25 18:46:37
提问者天狼武士回复 Michael_PK #3
```
好的！我试试！谢谢！
```
回复有任何疑惑可以回复我~ 2018-01-25 19:16:09