老师我用sparkstreaming读topic数据保存到hdfs上的格式是parquet,但我还要保存他的schema这个改怎样去做-慕课网

1回答

Michael_PK 2019-09-25 10:56:21

1）streaming读取topic的数据到hdfs可能有点隐患，如果是默认的输出，那必然会产生很多小文件，这种架构估计会对HDFS NN产生很大压力

2）parquet是内置自带schema的，spark直接读取parquet文件就是能自动推导出对应parquet文件的schema信息

0 回复有任何疑惑可以回复我~

提问者慕容128306 #1

我每是一条一条的日志，是由52个字段组成的。要求给每一列定义一个列名

回复有任何疑惑可以回复我~ 2019-09-25 10:59:32

Michael_PK 回复提问者慕容128306 #2

parquet自带格式，你要处理需要读进来，你想将已有的哪个字段改，那你自己可以定义自己的schema再输出

回复有任何疑惑可以回复我~ 2019-09-25 11:08:46

提问者慕容128306 #3

现在要求是我自定义，stream这里是不是这样写
stream.foreachRDD(rdd =>{
})
这样我就是数据写不进去

回复有任何疑惑可以回复我~ 2019-09-25 11:51:05

老师我用sparkstreaming读topic数据保存到hdfs上的格式是parquet,但我还要保存他的schema这个改怎样去做