【阶段作业】Spark实现分片key的自定义路由策略
483
等1人参与

题干:
分片key的自定义路由策略,指的是根据相关字段(即指定分片key的字段),实现数据到ClickHouse分片的映射, 所有相关的数据,都被存储至同一个分片中。 比如,根据user_id字段进行路由, 同一个用户的数据都会存储在同一个分片中。
根据分片key实现自定义路由,可用于优化如下的场景:
(1)、在数据检索场景下, 只需要将查询请求发送至匹配的分片节点。
比如,查询某一个用户的数据, 只需要将查询发送至保存了这个用户数据的分片节点,而不需要发送至所有节点进行数据的查询,从而可以降低资源的占用, 提升查询效率。
(2)、超大表之间的关联。
两张表之间的数据关联, 只需要使用当前节点的数据进行关联,而不需要从其他节点拉取数据, 在分布式集群环境,能极大提升数据关联查询的效率。
在Spark中, 如何实现根据指定的分片key字段,将key字段相同的数据,写入相应的分片。

思路提炼:
(1)、Spark的数据是按分区写入对应的分片, 如何确保相同key的数据在同一个分区?
(2)、如何确保相同key的数据,总是写入同一个分片?

说明:大家可以将自己的解答思路在下方的问答区留言讨论。
我的作业
去发布

登录后即可发布作业,立即

全部作业

数据加载中...

意见反馈 帮助中心 APP下载
官方微信