采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
老师,如果keyby 的时候key特别多,像几千个key,那么会有几千个分区吗?每个key都在单独的task中执行吗?这样会不会很耗资源呢?
多个key,相同的key一定在一个task。但是也有可能多个key是被分在同一个分区的。并不是说一个key就一定在一个分区。
如果多个key在同一个分区,通过key去count是不是就不准了?
一样准的呢。多个key在同一个分区,那么就在一个reducer中,reduce方法会被执行多次,每个key一次的。你可以走一个debug试试:就使用一个reducer,N多不同的key都是进到这个reduce,你在reducer方法上加个断点,一个key只能进去reducer方法一次的
登录后可查看更多问答,登录/注册
已经在做大数据,Flink助力轻松提薪;尚未入行,让你弯道超车
1.0k 9
833 7
608 6
535 6
806 5