请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

老师我用sparkstreaming读topic数据保存到hdfs上的格式是parquet,但我还要保存他 的schema这个改怎样去做

正在回答 回答被采纳积分+3

1回答

Michael_PK 2019-09-25 10:56:21

1)streaming读取topic的数据到hdfs可能有点隐患,如果是默认的输出,那必然会产生很多小文件,这种架构估计会对HDFS NN产生很大压力

2)parquet是内置自带schema的,spark直接读取parquet文件就是能自动推导出对应parquet文件的schema信息

0 回复 有任何疑惑可以回复我~
  • 提问者 慕容128306 #1
    我每是一条一条的日志,是由52个字段组成的。要求给每一列定义一个列名
    回复 有任何疑惑可以回复我~ 2019-09-25 10:59:32
  • Michael_PK 回复 提问者 慕容128306 #2
    parquet自带格式,你要处理需要读进来,你想将已有的哪个字段改,那你自己可以定义自己的schema再输出
    回复 有任何疑惑可以回复我~ 2019-09-25 11:08:46
  • 提问者 慕容128306 #3
    现在要求是我自定义,stream这里是不是这样写
    stream.foreachRDD(rdd =>{
    })
    这样我就是数据写不进去
    回复 有任何疑惑可以回复我~ 2019-09-25 11:51:05
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信