请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

在省份流量统计中,只对key值进行count,不同的key值不会加到一起吗?

比如上海 1 北京1
是分别发到两个reduce上还是一个reduce中?
发到一个reduce中会不会变成上海 2 或者北京2
还是同一个reduce也会按照hash顺序来多次处理当成多个reduce用呀?

正在回答

1回答

map处理完,比如上海1   北京1  会经过shuffle进行分发,相同的key是分发到同一个reduce中才能进行聚合操作。

不可能会变成上海2,因为相同的key会进入同一个reduce,再进行聚合的。上海和北京是两个不同的key

0 回复 有任何疑惑可以回复我~
  • 提问者 慕工程7011617 #1
    谢谢老师。如果此时只有一个reduce也能实现吗?他们会不会发到一个reduce中。还是这里有多少个key就有多少个reduce
    回复 有任何疑惑可以回复我~ 2021-03-10 20:18:18
  • Michael_PK 回复 提问者 慕工程7011617 #2
    只有一个reduce的话,也没问题的,数据都在一个reduce里面
    但是我们的自定义reducer类中的reduce方法是知道的,你可以观察下reduce方法,他的第一个参数就是key,第二个参数是一个可以迭代的,那么相同的key的数据都在一个可迭代的里面,所以是不会乱的
    回复 有任何疑惑可以回复我~ 2021-03-11 00:06:44
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信