实战课程_慕课网

题干：
分片key的自定义路由策略，指的是根据相关字段（即指定分片key的字段），实现数据到ClickHouse分片的映射，所有相关的数据，都被存储至同一个分片中。比如，根据user_id字段进行路由，同一个用户的数据都会存储在同一个分片中。
根据分片key实现自定义路由，可用于优化如下的场景：
（1）、在数据检索场景下，只需要将查询请求发送至匹配的分片节点。
比如，查询某一个用户的数据，只需要将查询发送至保存了这个用户数据的分片节点，而不需要发送至所有节点进行数据的查询，从而可以降低资源的占用，提升查询效率。
（2）、超大表之间的关联。
两张表之间的数据关联，只需要使用当前节点的数据进行关联，而不需要从其他节点拉取数据，在分布式集群环境，能极大提升数据关联查询的效率。
在Spark中，如何实现根据指定的分片key字段，将key字段相同的数据，写入相应的分片。

思路提炼：
（1）、Spark的数据是按分区写入对应的分片，如何确保相同key的数据在同一个分区？
（2）、如何确保相同key的数据，总是写入同一个分片？

说明：大家可以将自己的解答思路在下方的问答区留言讨论。
1
1

代码块

复制预览

代码块

复制预览

热搜

最近搜索清空

Markdown编辑器帮助