请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

关于 hdfs 合并小文件

接触大数据不久,弱弱地问一下老师…

1、Hdfs 里面一部分是 flume 收集的日志,一部分是解析后存的 hive 数据,目前有 2.6 亿+ 小文件,如何有效分析哪个目录或者哪张表小文件的数量?

2、找到小文件多的目录或者表之后,如何有效地合并的文件?

正在回答 回答被采纳积分+3

1回答

Michael_PK 2023-10-16 23:29:49

1 flume采集的时候是可以通过几个滚动参数时间、大小、记录数进行控制下大小的当然这部分只是简单的控制下

2flume落地到HDFS的数据是原始数据一般都需要对这部分数据进行ETL操作的比如说然后落到Hive中此时就需要控制最终落地文件的大小了比如控制reduce的个数就可以控制大小

3具体多大叫小文件每个公司的叫法可能不同比如小于10M小于50M只要定义好了之后我们的做法是每天凌晨去合并前一天表中的小文件的可以用sql也可以用spark等分布式计算的框架都可以的。思路就是挑出小的进行合并完再移回去

0 回复 有任何疑惑可以回复我~
问题已解决,确定采纳
还有疑问,暂不采纳
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号