采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
hadoop 是按 block 存储的,
当时有 hive 的时候,在创建了表 并录入了数据,
底层是什么样子的
会不会造成大量的磁盘浪费
如果这点空间都没有,还处理啥大数据!定期清理是需要的,但是不用长期关注这个问题
不知道是不是我理解的有问题:
我的理解是这样的,hdfs 每次写入 都会是固定的快, 但是我插入少量数据后,就关闭连接,下次插入数据的时候,是不是就重新插入新的块了,如果我的频繁的这么操作,肯定是有问题的,另外这些数据肯定是重要数据, 你说的清理 应该是整理吧 比如重新打包一并插入。
要明白一点:适合处理大的文件,不适合小文件,小文件必然需要定期合并。然后在一定时间内要把数据移动到冷集群去,HDFS只存近期的数据
HDFS频繁操作很正常的,分分钟写入几百G都是再正常不过的
原来我一直理解错了 我以为最终数据都会在hdfs上 老师 我彻底 迷糊了 您能不能再出个视频 帮助我们解决一些设计方案方面的问题
登录后可查看更多问答,登录/注册
快速转型大数据:Hadoop,Hive,SparkSQL步步为赢
1.5k 6
1.7k 6
1.9k 1
1.1k 21
1.4k 18