采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
视频中的案例,是每次日志过来都计算,然后都入库。 如果某个用户每个小时可能有N条日志数据过来,怎么按小时做持续汇总,再持续更新到库里?相当于每个用户每小时在库里只允许有1条数据
1)数据清洗后入库,然后按照每个小时每个用户 去做统计处理
2)可以是用window开一个窗口进行处理
如果想多条处理结果做汇总呢?只能用state 吗?
带state是一种方式,也可以把数据清洗后直接落在某种数据库中,然后后续直接使用sql进行统计也是可以的呢,这种方式一定要基于eventtime来出来,不然不能保证数据的一次消费
登录后可查看更多问答,登录/注册
实战Spark3实时处理,掌握两套企业级处理方案
1.8k 15
1.0k 15
1.2k 12
895 11
1.2k 9