采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
1)streaming读取topic的数据到hdfs可能有点隐患,如果是默认的输出,那必然会产生很多小文件,这种架构估计会对HDFS NN产生很大压力
2)parquet是内置自带schema的,spark直接读取parquet文件就是能自动推导出对应parquet文件的schema信息
我每是一条一条的日志,是由52个字段组成的。要求给每一列定义一个列名
parquet自带格式,你要处理需要读进来,你想将已有的哪个字段改,那你自己可以定义自己的schema再输出
现在要求是我自定义,stream这里是不是这样写 stream.foreachRDD(rdd =>{ }) 这样我就是数据写不进去
登录后可查看更多问答,登录/注册
Flume+Kafka+Spark Streaming 构建通用实时流处理平台
1.7k 89
1.1k 14
2.3k 13
1.7k 12
2.4k 12