采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
老师好: 就这节的实战例子,一份数据需要有多个统计指标输出,那么在实际业务场景中也是这么实现的吗?一份kafka数据可能同时需要统计多个指标,是使用不同groupid读取同一份Kafka数据,然后开发多个flink task来实现,还是说使用一个flink task 可能重复处理(不知道有没有拷贝流这么一说)来实现不同的业务指标统计? 求指教
一般我们是对接进来数据后,能多个业务一起处理就一起,实在不行就分开,分开处理得使用不同的group
能都具体说一下在一起处理的场景么,比如课程例子里:可能需要统计1分钟内域名流量总和,同时还需要统计基于ip计算同一个城市(省)的5分钟pv值,两窗口的,一个是1分钟,一个是5分钟,那这个怎么实现呢? 有可能是下面这么实现么,基于同一env拿到数据清洗不正确数据后,在flink中可否像类似下面这么去实现: DataStream<String> filterData = stream.filter ... // 处理1指标 filterData.keyBy(0).timeWindow(Time.minutes(1)).apply().addSink(); // 处理2指标 filterData.keyBy(0).timeWindow(Time.minutes(5)).apply().addSink(); 纯属个人想法哈,请指正
你的思路是可以的。但是 但是 但是 比如说的1个是1分钟 一个是5分钟 这种跨度不一样的,我们是不放在一个作业里面计算的。作为实时处理,首先 时间跨度一般都不会很大的,如果大了 那就直接走离线的就行了。
登录后可查看更多问答,登录/注册
入行或转型大数据新姿势,多语言系统化讲解,极速入门Flink
958 18
1.1k 15
1.5k 14
1.4k 13
1.6k 13