请稍等 ...

flink一个数据进行多个统计，如何确保所有程序都执行完

老师，我在做一个实时数据分析系统。一条数据输入到flink后，需要进行多个指标的统计，为了方便不停机扩展，所以每一个统计指标我都写了一个jar程序。现在的实现方式是等待500ms后，将所有程序输出的数据进行整合，但是遇到了一个问题，多个程序处理数据速度不同，总会有一部分处理结果超过500ms的窗口时间，延迟到达。
我想问下有没有其他方式，确保多个程序执行完后，再输出数据进行整合？
谢谢

6209701 2018-10-09 21:52:17

源自：9-10 -使用Flink完成wordcount统计

4046

收起

提交取消

2回答

Michael_PK 2018-10-09 23:21:28

延迟到达是很正常的，flink里面有类似多久时间延长的控制的，超过延迟真就丢了

0 回复有任何疑惑可以回复我~

收起回答

Michael_PK 2018-10-09 23:20:38

如果是同一份数据源的，建议直接在一个类里面，加载成多个DataSet进行处理，不需要分开多个jar吧

0 回复有任何疑惑可以回复我~

收起回答

提问者 6209701 #1

老师，我使用reduce时候，设置时间窗口500ms（以系统时间为准），超过500ms没有到达窗口内的key，怎么扔掉，而不是后续又再在新的500ms内再处理一次相同的key，只想处理一次，不想因为延迟，处理两次

回复有任何疑惑可以回复我~ 2018-10-10 11:27:46

Michael_PK 回复提问者 6209701 #2
```
你查下flink里面的水印概念
```
回复有任何疑惑可以回复我~ 2018-10-10 13:24:40

相似问题

关于程序计数器和指令缓存？

老师，课程中使用Atomic保证计数时不出错。如果是做数据库（增删改）操作，在多线程下如何保证原子性呢？

如何进行多个排序

同样一个数组(拷贝的数组)两次排序，所用的时间为什么会不一样呢？(好像冒泡排序的优化，跟插入排序有些相似呢）

关于线程并行问题

登录后可查看更多问答，登录/注册

10小时入门大数据

参与学习 1456 人
解答问题 656 个

【毕设】大数据零基础入门必备，轻松掌握Hadoop开发核心技能

了解课程

本课精华内容

问答

Java api 操作hdfs

1.3k 30

老问题could only be replicated to 0 nodes instead of minReplication (=1).

2.5k 28

在idea中上传文件到HDFS失败，找不到文件，文件不存在

1.3k 17

JAVA 运行mkdir()出错

1.4k 16

没有正常启动dfs.sh

998 13

查看更多本课问答

意见反馈帮助中心 APP下载

官方微信

flink一个数据进行多个统计，如何确保所有程序都执行完

正在回答回答被采纳积分+3

2回答

相似问题