时间窗内内，如果数据量太大怎么办？-慕课网

1回答

Michael_PK 2019-04-15 22:08:39

对接Kafka的话，可以做限速。如果没有控制好，是真有可能数据暴增导致作业失败

0 回复有任何疑惑可以回复我~

提问者慕用6324464 #1

谢谢老师哈！
有个比较困惑的地方是:如果在某些特定场景下，希望能缓存2分钟时间窗的数据再做聚合计算(希望聚合程度高点)，但是这两分钟的数据量又很大。比较简单粗暴的方法是不是直接加大集群规模？如果在集群规模无法扩大的情况下，是不是只能将时间窗调小，降低聚合程度？或者老师您有其他的建议方式？

回复有任何疑惑可以回复我~ 2019-04-15 22:47:09

Michael_PK 回复提问者慕用6324464 #2

你说的两种方式是OK的。有个疑问，你这2分钟的窗口有没有重叠的部分？

回复有任何疑惑可以回复我~ 2019-04-16 09:20:03

提问者慕用6324464 回复 Michael_PK #3

时间上是有重叠的。
比如:
14:02计算14:00-14:01
14:03计算14:01-14:02
那两次计算中，14:01的数据就是重叠的部分。

回复有任何疑惑可以回复我~ 2019-04-17 01:27:18

时间窗内内，如果数据量太大怎么办？