请稍等 ...

关于 hdfs 合并小文件

接触大数据不久，弱弱地问一下老师…

1、Hdfs 里面一部分是 flume 收集的日志，一部分是解析后存的 hive 数据，目前有 2.6 亿+ 小文件，如何有效分析哪个目录或者哪张表小文件的数量？

2、找到小文件多的目录或者表之后，如何有效地合并的文件？

KeithTt 2023-10-16 01:42:44

源自：11-5 小文件解决方案（下）

348

收起

提交取消

1回答

Michael_PK 2023-10-16 23:29:49

1 flume采集的时候是可以通过几个滚动参数时间、大小、记录数进行控制下大小的当然这部分只是简单的控制下

2flume落地到HDFS的数据是原始数据一般都需要对这部分数据进行ETL操作的比如说然后落到Hive中此时就需要控制最终落地文件的大小了比如控制reduce的个数就可以控制大小

3具体多大叫小文件每个公司的叫法可能不同比如小于10M小于50M只要定义好了之后我们的做法是每天凌晨去合并前一天表中的小文件的可以用sql也可以用spark等分布式计算的框架都可以的。思路就是挑出小的进行合并完再移回去

0 回复有任何疑惑可以回复我~

收起回答

相似问题

HDFS如何应对对大量小文件这种情况？

合并hdfs小文件

hive orc文件合并报错

生产上，存入HDFS的一个文件一般多大？

hdfs 的磁盘会不会浪费

登录后可查看更多问答，登录/注册

Hadoop 系统入门+核心精讲

参与学习 2421 人
提交作业 104 份
解答问题 909 个

从Hadoop核心技术入手，掌握数据处理中ETL应用，轻松进军大数据

了解课程

本课精华内容

问答作业

在创建project的时候报这个错误怎么解决啊上论坛查了解决方法还是不行

1.5k 21

如何切换到localhost

1.9k 20

hive 创建以后 mysql没有hive_hadoop的表

1.7k 19

mr中第一次运行WordCountApp时空指针异常

1.9k 17

在做第三章 fileSystem.open 的案例报错Could not obtain block

3.7k 16

查看更多本课问答

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

关于 hdfs 合并小文件

正在回答回答被采纳积分+3

1回答

相似问题