请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

hdfs 作为spark streaming 的实时存储是否合适,会产生大量小文件是否不稳定

老师 hdfs 作为spark streaming 的实时存储是否合适,会产生大量小文件是否不稳定
请问目前生产的实时存储都是 hbase
那么请问 hbase 如何转换为 spark dataframe
网上的版本大部分都太老了, 请问应该使用哪个框架,hbase1.2 与 hadoop 都是使用课堂使用的

正在回答 回答被采纳积分+3

2回答

Michael_PK 2018-10-07 17:27:33

HBase和spark SQL整合,你可以搜下对应的外部数据源,我记得是有的

0 回复 有任何疑惑可以回复我~
  • 提问者 慕运维7479159 #1
    请问慕课网目前实时存储使用的是hbase吗
    回复 有任何疑惑可以回复我~ 2018-10-07 17:29:17
  • 提问者 慕运维7479159 #2
    Exception in thread "dag-scheduler-event-loop" java.lang.NoSuchMethodError: org.apache.hadoop.mapreduce.InputSplit.getLocationInfo()[Lorg/apache/hadoop/mapred/SplitLocationInfo;
    	at org.apache.spark.rdd.NewHadoopRDD.getPreferredLocations(NewHadoopRDD.scala:289)
    	at org.apache.spark.rdd.RDD$$anonfun$preferredLocations$2.apply(RDD.scala:275)
    	at org.apache.spark.rdd.RDD$$anonfun$preferredLocations$2.apply(RDD.scala:275)
    	at scala.Option.getOrElse(Option.scala:121)
    	at org.apache.spark.rdd.RDD.preferredLocations(RDD.scala:274)
    回复 有任何疑惑可以回复我~ 2018-10-07 17:29:46
  • Michael_PK 回复 提问者 慕运维7479159 #3
    这是自己写的,有对应的框架
    回复 有任何疑惑可以回复我~ 2018-10-07 17:30:21
Michael_PK 2018-10-07 17:26:59

streaming处理完在HDFS这种方案不建议,小文件太多

0 回复 有任何疑惑可以回复我~
  • 提问者 慕运维7479159 #1
    这些框架都太旧了,不能用
    回复 有任何疑惑可以回复我~ 2018-10-07 17:30:20
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信