采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
storm中spout数据重复读取提交怎么处理 ,spout若读取hbase中的数据是按照行键顺序读取还是无规律的读取 ,如何才能保证storm读取数据的完整性
这个是否重复是需要根据storm消费后的offset的管理的,如果失败还会从上次记录的offset重新读取。当然也要自己保证处理结果的幂等性
那例如spout读取hbase的数据,那本来hbase有100条数据 他只读到80条 然后bolt里去读另外一个HBASE表的的数据 1000条 只拿到300条 预想是spout的每条数据都去和bolt拿到的每条数据对比 那理论就是 十万次 可事实他有一百万次 并且两个表的数据拿取的都不完整 一直是重复的数据 而且storm也不停下来 理应是拿完数据就等到hbase表来新的数据时在启动是吧 现在数据重复不完整 storm还一直再跑重复的数据 这种怎么处理啊
您们这业务架构不是太了解,一般接的都是消息队列的数据比较多,因为是实时处理。
前期暂时用sqoop将数据库中的数据放到hbase里面然后从hbase拿数据到storm处理再存到数据库中的 这样一个简便的框架。现在在storm拿数据这里一直处理重复数据 而且处理的数据完整性不能保证 也找不到相关资料 技术小白 storm都是自己看pdf的照猫画虎 走投无路
登录后可查看更多问答,登录/注册
深入Storm内部机制,logstash+kafka,快速切入大数据实时流处理
1.1k 15
1.0k 12
1.1k 12
740 11
1.0k 10