请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

HDFS如何应对对大量小文件这种情况?

HDFS架构中,一个文件会被拆分成多个Block,而blocksize比如30M,那每个文件至少占用30M的存储空间,这对大文件存储(比如几百M,几G这种级别)看不出影响,但是如果存储的是哪种非常小的文件呢?(几十、几百K哪种),但是量确特别大(比如github上大部分都是源代码、文本格式的小文件)。这种场景HDFS如何兼顾呢?

正在回答 回答被采纳积分+3

1回答

Michael_PK 2018-09-08 16:00:53

进行一次合并就行了,HDFS处理不怕大文件,而是怕存储大量小问题,不用的文件就删,要用到就合

0 回复 有任何疑惑可以回复我~
  • 提问者 bearsmall #1
    我其实是比较好奇小文件多的场景有什么可供参考的解决方案,毕竟也有很多场景会碰到,比如像github这种代码托管网站都是大量的小文件。如果采用小文件合并成大文件,那是否可以做到对单个文件的随机读取呢,还有namenode的压力也会很大吧。
    回复 有任何疑惑可以回复我~ 2018-09-08 16:59:45
  • Michael_PK 回复 提问者 bearsmall #2
    小文件是,很对block size来看的,
    回复 有任何疑惑可以回复我~ 2018-09-08 17:01:45
  • Michael_PK 回复 提问者 bearsmall #3
    大了就采用压缩呢,都是自动split的
    回复 有任何疑惑可以回复我~ 2018-09-08 17:02:24
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信