请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

时间窗内内,如果数据量太大怎么办?

老师,你好。
有个问题想请教下,如果在设定的时间窗口内,比如一分钟,会不会有可能在一分钟的等待时间内,因为源源不断涌入的数据量太大,使得flink的进程oom?

正在回答

1回答

Michael_PK 2019-04-15 22:08:39

对接Kafka的话,可以做限速。如果没有控制好,是真有可能数据暴增导致作业失败

0 回复 有任何疑惑可以回复我~
  • 提问者 慕用6324464 #1
    谢谢老师哈!
    有个比较困惑的地方是:如果在某些特定场景下,希望能缓存2分钟时间窗的数据再做聚合计算(希望聚合程度高点),但是这两分钟的数据量又很大。比较简单粗暴的方法是不是直接加大集群规模?如果在集群规模无法扩大的情况下,是不是只能将时间窗调小,降低聚合程度?或者老师您有其他的建议方式?
    回复 有任何疑惑可以回复我~ 2019-04-15 22:47:09
  • Michael_PK 回复 提问者 慕用6324464 #2
    你说的两种方式是OK的。有个疑问,你这2分钟的窗口有没有重叠的部分?
    回复 有任何疑惑可以回复我~ 2019-04-16 09:20:03
  • 提问者 慕用6324464 回复 Michael_PK #3
    时间上是有重叠的。
    比如:
    14:02计算14:00-14:01
    14:03计算14:01-14:02
    那两次计算中,14:01的数据就是重叠的部分。
    回复 有任何疑惑可以回复我~ 2019-04-17 01:27:18
问题已解决,确定采纳
还有疑问,暂不采纳
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号