请稍等 ...

rdd的partition分区问题


    result.foreachRDD(rdd => {
      rdd.foreachPartition(partitionOfRecords => {
        val connection = createConnection()
        partitionOfRecords.foreach(record => {
          val sql = "insert into wordcount(word, wordcount) values('" + record._1 + "'," + record._2 + ")"
          connection.createStatement().execute(sql)
        })

        connection.close()
      })
    })

比如说一次输入， a b a a c，然后经过map跟reduce处理出来是(a,3),(b,1),(c,1)，那请问老师怎么知道这个就是rdd中的一个partition呢（因为用到rdd.foreachPartition）？如果一次输入很大量的数据，也是这样分区的吗？

KelvinChung 2020-03-08 15:36:01

源自：8-3 -实战之将统计结果写入到MySQL数据库中

1164

收起

提交取消

1回答

Michael_PK 回答被采纳获得+3积分 2020-03-08 17:40:17

rdd的partition有几个地方相关。比如说：你读kafka的数据的时候，如果采用direct模式的话，那就是和你的kafka的partition数一样，如果中间你的算子没有可以调整分区数量。如果你算子调整了，那就是调整后的partition数量。

0 回复有任何疑惑可以回复我~

收起回答

提问者 KelvinChung #1

那请问老师，就像这个wordcount案例，是用一次输入的，一行数据为一个partition，再进行拆解的吗？

回复有任何疑惑可以回复我~ 2020-03-08 18:31:01

Michael_PK 回复提问者 KelvinChung #2

hdfs或者文件的就是一个block一个partition，你打开跑作业的UI就能看到task数量，task数量就是partition数量

回复有任何疑惑可以回复我~ 2020-03-08 18:58:33

提问者 KelvinChung #3
```
非常感谢！
```
回复有任何疑惑可以回复我~ 2020-03-08 20:30:33

相似问题

老师，一个 parition 一个 task，那是不是说有几个 partition 就有几个线程处理呢

86题 partition问题

foreachPartition Partition是什么意思

rdd的缓存

partition问题

登录后可查看更多问答，登录/注册

Spark Streaming实时流处理项目实战

参与学习 1404 人
解答问题 571 个

Flume+Kafka+Spark Streaming 构建通用实时流处理平台

了解课程

本课精华内容

问答

读英语的时候能不能不要propertie撕，topic撕

2.2k 89

cannot assign requested address

1.7k 14

kafka生产者消息发不出去

2.9k 13

kafka.serializer.StringDecoder死活导不进来

2.4k 12

spark streaming运行较长时间后报错kafka.common.OffsetOutOfRangeException

3.0k 12

查看更多本课问答

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

rdd的partition分区问题

正在回答

1回答

相似问题

请选择置顶位置

本课精华内容

读英语的时候能不能不要propertie撕，topic撕

cannot assign requested address

kafka生产者消息发不出去

kafka.serializer.StringDecoder死活导不进来

spark streaming运行较长时间后报错kafka.common.OffsetOutOfRangeException

热搜

最近搜索清空

rdd的partition分区问题

正在回答

1回答

相似问题

请选择置顶位置

本课精华内容

读英语的时候能不能不要propertie撕，topic撕

cannot assign requested address

kafka生产者消息发不出去

kafka.serializer.StringDecoder死活导不进来

spark streaming运行较长时间后报错kafka.common.OffsetOutOfRangeException