采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
请问老师,在视频中讲解的关于reduce数量的问题的时候我有这样一个疑问,如果设置了数量,那么可以用代码控制数据进入哪个reduce从而导致输出了多个文件,但是如果我们没有设置数量没有用代码控制,那默认的是同一个key的数据进入一个reduce,但是如果多个key为什么输出的问题还只是只有一个文件而不是多个?
reduce数量决定了最终输出的文件个数,分区数和reducer数可以不一样,那么这样可能会导致有输出文件为空。reduce数量不设置底层会给设置
非常感谢!
老师再问下是,如果我不设置reduce数量,默认情况下不是同样的key去同一个reduce,那我有10个key的话是不是应该默认有10个reduce,但是为什么输出文件只有一个?
这个不是你想的那样,不设置默认就是一个的。你可以找到hashpartition的类,打个断点,走个debug。
登录后可查看更多问答,登录/注册
从Hadoop核心技术入手,掌握数据处理中ETL应用,轻松进军大数据
1.3k 21
1.6k 20
1.4k 19
1.7k 17
3.3k 16