请稍等 ...

flume保存日志到hdfs

老师，您讲课时说，生产上可能5分钟产生几个G的日志文件。这些文件被flume直接保存到hdfs，这样会不会导致hafs中的数据太大，或者说，占用硬盘过大。
还是目前大数据公司还是不怎么在乎这几块硬盘的成本的？

627

收起

提交取消

1回答

Michael_PK 2019-01-14 11:19:03

我们一个五分钟的数据都达到300G，HDFS还是三副本也就是900G一个五分钟，要处理大数据，肯定得保证有足够的HDFS存储空间才可以，不然就谈不上大数据的存储和计算了

0 回复有任何疑惑可以回复我~

提问者 starkpan #1

老师，生产上
hdfs.rollInterval
hdfs.rollSize
hdfs.rollCount
这三个参数一般配多少？
第一个可能和业务量本身关系比较大。
后面两个呢

回复有任何疑惑可以回复我~ 2019-01-14 12:24:27

Michael_PK 回复提问者 starkpan #2

大小肯定是差不多block size的大小，count就看你的业务因为每个业务线的日志量可能大小不一样，所以也是凑到block size的大小的count就行

回复有任何疑惑可以回复我~ 2019-01-14 12:30:41

提问者 starkpan 回复 Michael_PK #3
```
谢谢老师o(^o^)o
```
回复有任何疑惑可以回复我~ 2019-01-14 12:39:17

flume数据源

登录后可查看更多问答，登录/注册

快速转型大数据：Hadoop，Hive，SparkSQL步步为赢

了解课程

问答

1.6k 6

1.8k 6

1.9k 1

1.2k 21

1.5k 18