请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

如何保证 Alluxio 和 Hdfs中的数据一致?

Pk哥你好,如果使用alluxio如何保证Hdfs的数据一致呢?
这是正常查询请求的场景
图片描述

如果第一次alluxio中没有所需要的数据,这个时候是从hdfs加载数据到alluxio中,
但是hdfs的数据发生了改变 alluxi中的数据也是会发生变化吗?

我能想到的是 当h’dfs中的数据发送除了查询之外的请求,都需要更新alluxio中的数据,或者直接删除alluxio的数据,等之后的查询过来在重新加载;

不知道这种场景 alluxio是否已有解决方案呢?

正在回答 回答被采纳积分+3

1回答

Michael_PK 2020-02-12 15:52:13

这个问题提的很好!!!  两者的一致性必然是需要经过完整的测试才知道的,比如你需要找一个场景,确定HDFS的记录数,然后去Alluxio中确定记录数,如果是ok的,那就说明没有问题。当然这是一个前期的调研的功能性验证。在生产上也是需要做数据质量的校验的,不然两端数据如果发生对不上的情况,那么对于你来说里面就是个黑盒子了,这肯定是不行的。

0 回复 有任何疑惑可以回复我~
  • 提问者 苏先生1 #1
    对于现在的大数据场景来说,其实单纯的条数比对已经没法满足需求,我们生产上对数据的一致性比对,也尝试过 抽样比对,但是没法hold全部场景,但是全量的比对有浪费资源,我们也一直没有找到合适的架构 来做这件事情;
    回复 有任何疑惑可以回复我~ 2020-02-12 17:34:19
  • Michael_PK 回复 提问者 苏先生1 #2
    数据对比是一个方面,还需要其他的数据质量管理的,比如元数据管理,数据上下游质量管理等等
    回复 有任何疑惑可以回复我~ 2020-02-12 17:41:24
  • 提问者 苏先生1 回复 Michael_PK #3
    是的,就是你之前一直说的,元数据管理的重要性; 其实Alluxio 我看起来 就是一个内存的文件系统,redis的pro形态~~
    回复 有任何疑惑可以回复我~ 2020-02-12 17:43:09
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信