采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
HDFS架构中,一个文件会被拆分成多个Block,而blocksize比如30M,那每个文件至少占用30M的存储空间,这对大文件存储(比如几百M,几G这种级别)看不出影响,但是如果存储的是哪种非常小的文件呢?(几十、几百K哪种),但是量确特别大(比如github上大部分都是源代码、文本格式的小文件)。这种场景HDFS如何兼顾呢?
进行一次合并就行了,HDFS处理不怕大文件,而是怕存储大量小问题,不用的文件就删,要用到就合
我其实是比较好奇小文件多的场景有什么可供参考的解决方案,毕竟也有很多场景会碰到,比如像github这种代码托管网站都是大量的小文件。如果采用小文件合并成大文件,那是否可以做到对单个文件的随机读取呢,还有namenode的压力也会很大吧。
小文件是,很对block size来看的,
大了就采用压缩呢,都是自动split的
登录后可查看更多问答,登录/注册
快速转型大数据:Hadoop,Hive,SparkSQL步步为赢
1.5k 6
1.7k 6
1.9k 1
1.1k 21
1.4k 18