采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
老师,你好。有个问题想请教下,如果在设定的时间窗口内,比如一分钟,会不会有可能在一分钟的等待时间内,因为源源不断涌入的数据量太大,使得flink的进程oom?
对接Kafka的话,可以做限速。如果没有控制好,是真有可能数据暴增导致作业失败
谢谢老师哈! 有个比较困惑的地方是:如果在某些特定场景下,希望能缓存2分钟时间窗的数据再做聚合计算(希望聚合程度高点),但是这两分钟的数据量又很大。比较简单粗暴的方法是不是直接加大集群规模?如果在集群规模无法扩大的情况下,是不是只能将时间窗调小,降低聚合程度?或者老师您有其他的建议方式?
你说的两种方式是OK的。有个疑问,你这2分钟的窗口有没有重叠的部分?
时间上是有重叠的。 比如: 14:02计算14:00-14:01 14:03计算14:01-14:02 那两次计算中,14:01的数据就是重叠的部分。
登录后可查看更多问答,登录/注册
入行或转型大数据新姿势,多语言系统化讲解,极速入门Flink
1.3k 18
1.5k 15
1.9k 14
1.7k 13
2.0k 13
购课补贴联系客服咨询优惠详情
慕课网APP您的移动学习伙伴
扫描二维码关注慕课网微信公众号