请稍等 ...

词频统计的reduce个数

图片描述
老师我们这里没有自定义Partitioner，那么我们通过默认的return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks来定义分区数来将key相同的map转发到不同分区进行处理，按道理返回应该不止一个分区为啥输出的文件是一个呢，难道return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks这个默认计算出来的值都是一样的？我在JDK源码debug没有debug出来。

Panda_io 2019-08-23 10:47:12

源自：6-9 浏览量统计功能实现

745

收起

提交取消

1回答

Michael_PK 2019-08-23 11:54:52

因为你数据量少，默认就是一个reduce

0 回复有任何疑惑可以回复我~

提问者 Panda_io #1
```
明白了，谢谢老师！
```
回复有任何疑惑可以回复我~ 2019-08-24 21:21:01

相似问题

关于词频统计重构的代码运行结果问题

关键词出现次数统计

reduce

wold字数统计

中文热词的词频统计

登录后可查看更多问答，登录/注册

Hadoop 系统入门+核心精讲

参与学习 2424 人
提交作业 107 份
解答问题 909 个

从Hadoop核心技术入手，掌握数据处理中ETL应用，轻松进军大数据

了解课程

本课精华内容

问答作业

在创建project的时候报这个错误怎么解决啊上论坛查了解决方法还是不行

1.7k 21

如何切换到localhost

2.0k 20

hive 创建以后 mysql没有hive_hadoop的表

1.8k 19

mr中第一次运行WordCountApp时空指针异常

2.1k 17

在做第三章 fileSystem.open 的案例报错Could not obtain block

3.9k 16

查看更多本课问答

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

扫描二维码
关注慕课网微信公众号