请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

关于批量插入作业

图片描述
在网上搜了些资料,kudu的批量插入执行,貌似没有特定的方式,是通过将要插入的数据写入内存,然后再批量落入磁盘中的
通过设置FlushMode.MANUAL_FLUSH,来实现批量插入
数据会先写到缓存区,在调用session.flush() 方法后,才会执行写操作
对于缓存区大小的设置,可以在官网找到
可以在/etc/kudu/conf/tserver.gflagfile 文件中设置
–memory_limit_hard_bytes 这个参数 默认是4294967296 单位应该是字节吧
不知道做的对不对,pk老师看见了,还烦请批下作业

正在回答

1回答

单位看字面意思应该是字节,你这么操作理论上应该可以,直接使用外部数据源的方式好像也有参数可以控制

0 回复 有任何疑惑可以回复我~
  • 提问者 慕移动6222658 #1
    谢谢老师,我再研究研究
    回复 有任何疑惑可以回复我~ 2020-02-12 14:15:33
  • 老师,这个思考题我尝试理解一下。。您是想问生产中我有某个特定的数据源,然后怎么写代码让他批量从数据源写入吗?
    如果是这样,我看网上可以用spark将数据源读成df然后写入kudu
    https://www.oreilly.com/content/how-can-i-bulk-load-data-from-hdfs-to-kudu-using-apache-spark/
    回复 有任何疑惑可以回复我~ 2022-06-25 15:31:04
  • spark批量写入的话,可以到社区上找下是否有sparksql对接的kudu的外部数据源,直接通过外部数据源写入就可以
    回复 有任何疑惑可以回复我~ 2022-06-27 00:10:47
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信