采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
Pk哥你好,如果使用alluxio如何保证Hdfs的数据一致呢? 这是正常查询请求的场景
如果第一次alluxio中没有所需要的数据,这个时候是从hdfs加载数据到alluxio中, 但是hdfs的数据发生了改变 alluxi中的数据也是会发生变化吗?
我能想到的是 当h’dfs中的数据发送除了查询之外的请求,都需要更新alluxio中的数据,或者直接删除alluxio的数据,等之后的查询过来在重新加载;
不知道这种场景 alluxio是否已有解决方案呢?
这个问题提的很好!!! 两者的一致性必然是需要经过完整的测试才知道的,比如你需要找一个场景,确定HDFS的记录数,然后去Alluxio中确定记录数,如果是ok的,那就说明没有问题。当然这是一个前期的调研的功能性验证。在生产上也是需要做数据质量的校验的,不然两端数据如果发生对不上的情况,那么对于你来说里面就是个黑盒子了,这肯定是不行的。
对于现在的大数据场景来说,其实单纯的条数比对已经没法满足需求,我们生产上对数据的一致性比对,也尝试过 抽样比对,但是没法hold全部场景,但是全量的比对有浪费资源,我们也一直没有找到合适的架构 来做这件事情;
数据对比是一个方面,还需要其他的数据质量管理的,比如元数据管理,数据上下游质量管理等等
是的,就是你之前一直说的,元数据管理的重要性; 其实Alluxio 我看起来 就是一个内存的文件系统,redis的pro形态~~
登录后可查看更多问答,登录/注册
大数据生态圈实用框架(Spark/Hbase/Redis/Hadoop)整合应用及调优
1.3k 21
837 11
1.7k 11
1.1k 11
1.4k 11