请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

SparkStreaming实时处理的问题

如果想要实时计算一段时间内数据的平均值和最高、最低,实现这个思路是什么?
1是不断的读取新文件实时计算?
2了解到窗口,那运用窗口可以吗?这个窗口的时间有没有最大最小?

正在回答 回答被采纳积分+3

1回答

Michael_PK 2019-04-08 11:29:39

可以使用窗口来搞定,在窗口的算子里面完成你所需要的最值问题。你只要把你窗口和你业务的范围设置成一样即可

0 回复 有任何疑惑可以回复我~
  • 提问者 nsko #1
    谢谢老师,如果是指定时间的时间间隔,比如从早8点到晚8点,这样指定时间,sparkstreaming可以吗?或者我想是否可以用azkaban在指定时间开始提交作业然后在时间到时停止这个作业,再提交作业。spark用updateStateByKey来计算,哪个流程比较好?
    回复 有任何疑惑可以回复我~ 2019-04-09 08:31:50
  • Michael_PK 回复 提问者 nsko #2
    窗口一般不会这么大的 你要统计这么长的,你可以先安装批次吧结果学到表里,然后定时把结果累加起来就行了
    回复 有任何疑惑可以回复我~ 2019-04-09 08:37:34
  • 提问者 nsko 回复 Michael_PK #3
    老师。是因为要实时计算这段时间的平均数、最值。我刚刚说的第2种想法可以吗?(用azkaban在指定时间开始提交作业然后在时间到时停止这个作业,再提交作业。spark用updateStateByKey来计算)
    回复 有任何疑惑可以回复我~ 2019-04-09 08:40:21
问题已解决,确定采纳
还有疑问,暂不采纳
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号