采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
我想实现从hdfs读取然后批量写入kafka,能不能提高一个案例,谢谢 数据量一个csv文件50g
kafka适用于实时处理,而SQL离线比较多,两者不太搭吧,为什么现在这个架构呢?即使选择,那也只能按照kafkaapi的要求写数据
我现在的场景是,分析端需要用到greenplum,但是他的比较好的性能是从kafka批量读取数据落盘,目前我用sparksql从Phoenix中读取数据保存到hdfs上,想实现的是hdfs同步到greenplum
目前我就是离线的数据导入,实时的全是走phoenix+hbase,或者有没有使用于oltp的sql查询和写入更好的办法?
这么说是OK的,那就得调用hdfs到gp的工具了
登录后可查看更多问答,登录/注册
大数据工程师干货课程 带你从入门到实战掌握SparkSQL
1.1k 15
1.1k 14
1.4k 12
1.9k 12
1.4k 11
购课补贴联系客服咨询优惠详情
慕课网APP您的移动学习伙伴
扫描二维码关注慕课网微信公众号