采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
什么情况,导致重处理啊,为什么lamda架构不能重处理啊,都没讲?
在上一小节4-2有介绍,比如像数据出现了延迟、数据丢失进行数据的补数据,都需要进行数据的重处理。 但流处理通常是作为一个常驻进程,只会启动一次,不会多次调度,对数据的重处理是很难支持的。
kappa重处理,比如据出现了延迟、数据丢失进行数据的补数据,数据都在kafak中,怎么来补数据,补在哪里,kafka是顺序消费数据的,flink或者spark streaming怎么做的,还有重处理从什么地方开始---哪一条数据开始重处理,怎么定位
Kafka可以指定offset或者时间戳消费数据,以Spark为例,可参考文档:https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html。 从哪条数据重处理不重要,重处理的起点可以是一个小时前、一天等等,毕竟是启动一个新的流程,最终是使用这个新的流程替换掉老的流程。
登录后可查看更多问答,登录/注册
掌握数仓构建,完善技术体系,轻松掌握高薪技能
629 5
446 4
954 3
388 3
544 3