请稍等 ...

HDFS如何应对对大量小文件这种情况？

HDFS架构中，一个文件会被拆分成多个Block，而blocksize比如30M，那每个文件至少占用30M的存储空间，这对大文件存储（比如几百M，几G这种级别）看不出影响，但是如果存储的是哪种非常小的文件呢？（几十、几百K哪种），但是量确特别大（比如github上大部分都是源代码、文本格式的小文件）。这种场景HDFS如何兼顾呢？

bearsmall 2018-09-08 15:05:32

源自：1-15 -HDFS优缺点

1111

收起

提交取消

1回答

Michael_PK 2018-09-08 16:00:53

进行一次合并就行了，HDFS处理不怕大文件，而是怕存储大量小问题，不用的文件就删，要用到就合

0 回复有任何疑惑可以回复我~

收起回答

提问者 bearsmall #1

我其实是比较好奇小文件多的场景有什么可供参考的解决方案，毕竟也有很多场景会碰到，比如像github这种代码托管网站都是大量的小文件。如果采用小文件合并成大文件，那是否可以做到对单个文件的随机读取呢，还有namenode的压力也会很大吧。

回复有任何疑惑可以回复我~ 2018-09-08 16:59:45

Michael_PK 回复提问者 bearsmall #2
```
小文件是，很对block size来看的，
```
回复有任何疑惑可以回复我~ 2018-09-08 17:01:45
Michael_PK 回复提问者 bearsmall #3
```
大了就采用压缩呢，都是自动split的
```
回复有任何疑惑可以回复我~ 2018-09-08 17:02:24