采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
老师,您讲课时说,生产上可能5分钟产生几个G的日志文件。这些文件被flume直接保存到hdfs,这样会不会导致hafs中的数据太大,或者说,占用硬盘过大。 还是目前大数据公司还是不怎么在乎这几块硬盘的成本的?
我们一个五分钟的数据都达到300G,HDFS还是三副本也就是900G一个五分钟,要处理大数据,肯定得保证有足够的HDFS存储空间才可以,不然就谈不上大数据的存储和计算了
老师,生产上 hdfs.rollInterval hdfs.rollSize hdfs.rollCount 这三个参数一般配多少? 第一个可能和业务量本身关系比较大。 后面两个呢
大小肯定是差不多block size的大小,count就看你的业务因为每个业务线的日志量可能大小不一样,所以也是凑到block size的大小的count就行
谢谢老师o(^o^)o
登录后可查看更多问答,登录/注册
快速转型大数据:Hadoop,Hive,SparkSQL步步为赢
1.6k 6
1.7k 6
1.9k 1
1.2k 21
1.5k 18