请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

关于一份数据多个统计指标的是如何实际来开发的?

老师好:
就这节的实战例子,一份数据需要有多个统计指标输出,那么在实际业务场景中也是这么实现的吗?一份kafka数据可能同时需要统计多个指标,是使用不同groupid读取同一份Kafka数据,然后开发多个flink task来实现,还是说使用一个flink task 可能重复处理(不知道有没有拷贝流这么一说)来实现不同的业务指标统计?
求指教

正在回答 回答被采纳积分+3

1回答

Michael_PK 2019-08-28 13:44:35

一般我们是对接进来数据后,能多个业务一起处理就一起,实在不行就分开,分开处理得使用不同的group

0 回复 有任何疑惑可以回复我~
  • 提问者 liangqi000 #1
    能都具体说一下在一起处理的场景么,比如课程例子里:可能需要统计1分钟内域名流量总和,同时还需要统计基于ip计算同一个城市(省)的5分钟pv值,两窗口的,一个是1分钟,一个是5分钟,那这个怎么实现呢?
    
    有可能是下面这么实现么,基于同一env拿到数据清洗不正确数据后,在flink中可否像类似下面这么去实现:
    
    DataStream<String> filterData = stream.filter ...
    
    // 处理1指标      filterData.keyBy(0).timeWindow(Time.minutes(1)).apply().addSink();
            
    // 处理2指标       filterData.keyBy(0).timeWindow(Time.minutes(5)).apply().addSink();
    
    纯属个人想法哈,请指正
    回复 有任何疑惑可以回复我~ 2019-08-28 14:18:52
  • Michael_PK 回复 提问者 liangqi000 #2
    你的思路是可以的。但是  但是  但是   比如说的1个是1分钟 一个是5分钟   这种跨度不一样的,我们是不放在一个作业里面计算的。作为实时处理,首先  时间跨度一般都不会很大的,如果大了 那就直接走离线的就行了。
    回复 有任何疑惑可以回复我~ 2019-08-28 14:48:43
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信