请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

flume保存日志到hdfs

老师,您讲课时说,生产上可能5分钟产生几个G的日志文件。这些文件被flume直接保存到hdfs,这样会不会导致hafs中的数据太大,或者说,占用硬盘过大。
还是目前大数据公司还是不怎么在乎这几块硬盘的成本的?

正在回答

1回答

Michael_PK 2019-01-14 11:19:03

我们一个五分钟的数据都达到300G,HDFS还是三副本也就是900G一个五分钟,要处理大数据,肯定得保证有足够的HDFS存储空间才可以,不然就谈不上大数据的存储和计算了

0 回复 有任何疑惑可以回复我~
  • 提问者 starkpan #1
    老师,生产上
    hdfs.rollInterval
    hdfs.rollSize
    hdfs.rollCount
    这三个参数一般配多少?
    第一个可能和业务量本身关系比较大。
    后面两个呢
    回复 有任何疑惑可以回复我~ 2019-01-14 12:24:27
  • Michael_PK 回复 提问者 starkpan #2
    大小肯定是差不多block size的大小,count就看你的业务因为每个业务线的日志量可能大小不一样,所以也是凑到block size的大小的count就行
    回复 有任何疑惑可以回复我~ 2019-01-14 12:30:41
  • 提问者 starkpan 回复 Michael_PK #3
    谢谢老师o(^o^)o
    回复 有任何疑惑可以回复我~ 2019-01-14 12:39:17
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信