请稍等 ...

如何在bulkloadHFile中获取数据触发ES

我将csv文件导入到hbase 使用ImportTsv生成HFile

hbase org.apache.hadoop.hbase.mapreduce.ImportTsv

已经成功，但是我想使用自定义的协处理器导入之后触发 postBulkLoadHFile 事件，获取到数据后进行插入ES，达到二级缓存的作用。因为是hfile的所以它操作的不是表级别的，触发不到 postPut 这个事件，如果单纯的操作表结构是可以的。

现在的问题是如何获取到数据


public class HbaseDataSyncEsObserver implements RegionObserver, RegionCoprocessor, BulkLoadObserver{

 @Override
    public void postBulkLoadHFile(ObserverContext<RegionCoprocessorEnvironment> ctx,
                                  List<Pair<byte[], String>> stagingFamilyPaths, Map<byte[], List<Path>> finalPaths) {

        Map<String, Object> data = new HashMap<>();
        Map<String, Map<String, Object>> esData = new HashMap<>();

        for (Pair<byte[], String> familyPath : stagingFamilyPaths) {

            String key = Bytes.toString(familyPath.getFirst());
            String value = familyPath.getSecond();

            LOG.info(Bytes.toString(familyPath.getFirst()) + "===JULONG===>" + familyPath.getSecond());
            data.put(key, value);
//            esData.put(key, value);
        }
        esData.put("000", data);

        ElasticSearchUtil.saveEsDataWithBulk(esData, index);
    }

这里获取到的数据只是 info : HDFS 地址；

lindy_chan 2021-08-09 10:43:19

源自：3-3 HBase是什么

841

收起

提交取消

1回答

Michael_PK 2021-08-09 22:18:09

bulkload是将数据以hfile的方式进行操作，这个和es没有关系的呢

你要写入es完全不需要这种，用普通的原生api以batch的方式写入es，完全就OK了。

0 回复有任何疑惑可以回复我~

收起回答

提问者 lindy_chan #1

我的数据型式是每几个小时产生的csv文件，所以直接用bulkload 导入速度是比较快的。不过es查询 hbase极慢。 使用普通协处理器 postput插入也是比较慢的。

回复有任何疑惑可以回复我~ 2021-08-09 22:33:10

相似问题

initProxy(vm)中的hasHandler如何被触发的？

老师，异步请求获取的的数据，如何渲染到页面中呢，dom渲染时数据还没请求到，数据就为空。。

关于数据获取

数据库获取数据问题

怎么在.vue中获取异步数据

登录后可查看更多问答，登录/注册

Spark进阶大数据离线与实时项目实战

参与学习 705 人
解答问题 190 个

大数据生态圈实用框架(Spark/Hbase/Redis/Hadoop)整合应用及调优

了解课程

本课精华内容

问答作业

java.lang.NoSuchMethodError错误

1.7k 21

java.lang.OutOfMemoryError: Java heap space错误

1.3k 11

IDEA 无法访问远程虚拟机的datanode拿到数据

2.2k 11

关于虚拟机设置机器名

1.6k 11

编译支持hadoop2.6.0-cdh5.15.1的spark3.0.0失败

1.8k 11

查看更多本课问答

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

如何在bulkloadHFile中获取数据触发ES

正在回答回答被采纳积分+3

1回答

bulkload是将数据以hfile的方式进行操作，这个和es没有关系的呢

相似问题

请选择置顶位置

本课精华内容

java.lang.NoSuchMethodError错误

java.lang.OutOfMemoryError: Java heap space错误

IDEA 无法访问远程虚拟机的datanode拿到数据

关于虚拟机设置机器名

编译支持hadoop2.6.0-cdh5.15.1的spark3.0.0失败

【讨论题】简历项目问题

【讨论题】数据倾斜的思考

【讨论题】SparkStreaming对接Kafka数据在项

【讨论题】Spark OOM问题

【讨论题】关于Spark RDD核心算子的思考

热搜

最近搜索清空

如何在bulkloadHFile中获取数据触发ES

正在回答 回答被采纳积分+3

1回答

bulkload是将数据以hfile的方式进行操作，这个和es没有关系的呢

相似问题

请选择置顶位置

本课精华内容

java.lang.NoSuchMethodError错误

java.lang.OutOfMemoryError: Java heap space错误

IDEA 无法访问远程虚拟机的datanode拿到数据

关于虚拟机设置机器名

编译支持hadoop2.6.0-cdh5.15.1的spark3.0.0失败

【讨论题】简历项目问题

【讨论题】数据倾斜的思考

【讨论题】SparkStreaming对接Kafka数据在项

【讨论题】Spark OOM问题

【讨论题】关于Spark RDD核心算子的思考

正在回答回答被采纳积分+3