请稍等 ...

sparksql 如何高性能写入kafka有没有案例提供谢谢

我想实现从hdfs读取然后批量写入kafka，能不能提高一个案例，谢谢
数据量一个csv文件50g

我是风雪 2020-02-12 12:31:48

源自：3-3 SQL on Hadoop

723

收起

提交取消

1回答

Michael_PK 2020-02-12 12:40:02

kafka适用于实时处理，而SQL离线比较多，两者不太搭吧，为什么现在这个架构呢？即使选择，那也只能按照kafkaapi的要求写数据

0 回复有任何疑惑可以回复我~

收起回答

提问者我是风雪 #1

我现在的场景是,分析端需要用到greenplum，但是他的比较好的性能是从kafka批量读取数据落盘,目前我用sparksql从Phoenix中读取数据保存到hdfs上,想实现的是hdfs同步到greenplum

回复有任何疑惑可以回复我~ 2020-02-12 13:51:09

提问者我是风雪 #2

目前我就是离线的数据导入，实时的全是走phoenix+hbase,或者有没有使用于oltp的sql查询和写入更好的办法？

回复有任何疑惑可以回复我~ 2020-02-12 13:52:39

Michael_PK 回复提问者我是风雪 #3
```
这么说是OK的，那就得调用hdfs到gp的工具了
```
回复有任何疑惑可以回复我~ 2020-02-12 14:03:35

点开查看后面2条评论

相似问题

hive 启动成功，但是无法进入sparksql库，原带的如mysql库则可以进去

能提供完整代码？

老师，全量数据是指topic中的所有消息吗

请问 useClass 和 Factory 提供者除语法外，还有什么其他的区别，请提供nestjs示例代码举例

数据库如何提高性能？提高QPS 及 TPS

登录后可查看更多问答，登录/注册

SparkSQL入门整合Kudu实现广告业务数据分析

参与学习 535 人
解答问题 192 个

大数据工程师干货课程带你从入门到实战掌握SparkSQL

了解课程

本课精华内容

问答作业

提问老师client连接服务器出现的问题

1.1k 15

7-3 kudu 部署失败

1.1k 14

有HBase之后为什么还需要KUDU

1.4k 12

问题：无法下载相关Spark和Scala依赖

1.9k 12

kudu-master启动失败

1.4k 11

查看更多本课问答

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

sparksql 如何高性能写入kafka有没有案例提供谢谢

正在回答

1回答

相似问题