请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

请问,元数据计数,是按照partition计数还是只按照表计数?

请问,元数据计数,是按照partition计数还是只按照hive表计数,个人认为按照hive表计数的话粒度还是不够,但是如果按照partition计数的话,是把partition组合起来当一个字段吗?貌似只有这样才能合理的计数,另外计数是用hiveQL进行计数,还是直接用hdfs dfs -cat |wc -l计数呢,有没有一份完整的元数据的表设计?可以少走很多弯路,目前能想到几张表:
table_name(表信息) id name create_sql desc create_time
db_col(列名) id db_id column desc
partition(分区) id db_id partition_group desc
partition_number(分区数据) id db_id partition_id partition_count
etl_way(ETL流程路径) id db_id_group
请问您这有没有常见的一些元数据管理的表结构,感觉这一套很复杂,有些没接触过的肯定想不到,但是又不可或缺,设计还是要严谨些,要不然后续变更很尴尬

PS:Flink的课程什么时候放出来

正在回答 回答被采纳积分+3

3回答

Michael_PK 2018-09-17 00:02:52

这一块现在没有啥好的开源的,需要团队自己实现

0 回复 有任何疑惑可以回复我~
  • 提问者 慕粉0036235932 #1
    在Ariflow官网看到  airflow可以集成 Apache atlas进行元数据管理
    回复 有任何疑惑可以回复我~ 2018-09-18 10:12:56
  • 提问者 慕粉0036235932 #2
    Airflow can send its lineage metadata to Apache Atlas. You need to enable the atlas backend and configure it properly, eg in your airflow.cfg :
    
     [ lineage ]
    backend = airflow . lineage . backend . atlas
    
    [ atlas ]
    username = my_username
    password = my_password
    host = host
    port = 21000
    回复 有任何疑惑可以回复我~ 2018-09-18 10:14:25
  • Michael_PK 回复 提问者 慕粉0036235932 #3
    这个我们也调研过,对于小公司可能够用了
    回复 有任何疑惑可以回复我~ 2018-09-18 10:26:40
Michael_PK 2018-09-17 00:02:26

元数据管理是大数据平台中最核心的一个部分,不仅元数据而且还要结合权限一起的

0 回复 有任何疑惑可以回复我~
Michael_PK 2018-09-17 00:01:37

元数据统计分很多纬度的,既可以表基本,也能分区级别,设置做到列级别都可以的,就看元数据系统设计的最细粒度

0 回复 有任何疑惑可以回复我~
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信