【讨论题】关于小文件的思考
616
等4人参与

在大数据处理过程中,HDFS上的小问题过多会对整个集群上作业的运行、集群的吞吐量等有很大的影响,请使用Spark SQL的知识去解决小文件问题

提示:

  • 什么是小文件
  • HDFS为什么不适合存小问题
  • 使用Spark SQL解决小文件的思路以及实现方式
我的作业
去发布

登录后即可发布作业,立即

全部作业

数据加载中...

意见反馈 帮助中心 APP下载
官方微信