请问,元数据计数,是按照partition计数还是只按照hive表计数,个人认为按照hive表计数的话粒度还是不够,但是如果按照partition计数的话,是把partition组合起来当一个字段吗?貌似只有这样才能合理的计数,另外计数是用hiveQL进行计数,还是直接用hdfs dfs -cat |wc -l计数呢,有没有一份完整的元数据的表设计?可以少走很多弯路,目前能想到几张表:
table_name(表信息) id name create_sql desc create_time
db_col(列名) id db_id column desc
partition(分区) id db_id partition_group desc
partition_number(分区数据) id db_id partition_id partition_count
etl_way(ETL流程路径) id db_id_group
请问您这有没有常见的一些元数据管理的表结构,感觉这一套很复杂,有些没接触过的肯定想不到,但是又不可或缺,设计还是要严谨些,要不然后续变更很尴尬
PS:Flink的课程什么时候放出来