请稍等 ...

map和mapPartition

老师你好，
map()：每次处理一条数据
mapPartition()：每次处理一个分区的数据，这个分区的数据处理完后，原RDD中分区的数据才能释放
咱这个peopleDetail.mapPartitions(x=>{。。。。
中为啥要用mapPartition呢。这个表的分区数据体现到哪了呢？不太明白

慕九州3016327 2020-10-12 21:28:33

源自：10-4 广播变量在Spark中是使用二

1556

收起

提交取消

2回答

Michael_PK 2020-10-12 21:56:27

map的如果是做每条处理，不带聚合的，那么你认为会有问题吗？

1 回复有任何疑惑可以回复我~

收起回答

慕少7351152 2022-07-01 09:35:29

https://cloud.tencent.com/developer/article/1805305

试着说说我的理解，map和mapPartition在处理机制上的区别题目中已经说了，这里区别在于处理一个分区的数据的时候如果有可共用的对象（比如数据库连接，或者是这里的broadcast变量数据），可以避免map中每条数据重复的创建删除，比如这里的broadcast变量，如果用map估计是要频繁的创建和释放broadcast.value的空间

0 回复有任何疑惑可以回复我~

收起回答

Michael_PK #1

这2个算子其实都有各自的场景。mp算子的如果一个分区数据量非常大大大，那么就可能会有oom产生。

回复有任何疑惑可以回复我~ 2022-07-04 00:25:20

慕少7351152 回复 Michael_PK #2
```
嗯嗯，忘了这一条也是
```
回复有任何疑惑可以回复我~ 2022-07-04 10:21:02

相似问题

为什么必须用map?

MapPartition也可以连接数据库，那是否可以直接用MapPartition将数据输出，不用自定义sinkFunction？

ThreadLocal保存Map问题

老师能否详细解释一下定义map的作用吗

.map的含义

登录后可查看更多问答，登录/注册

SparkSQL入门整合Kudu实现广告业务数据分析

参与学习 543 人
解答问题 192 个

大数据工程师干货课程带你从入门到实战掌握SparkSQL

了解课程

本课精华内容

问答作业

提问老师client连接服务器出现的问题

1.4k 15

7-3 kudu 部署失败

1.4k 14

有HBase之后为什么还需要KUDU

1.7k 12

问题：无法下载相关Spark和Scala依赖

2.3k 12

kudu-master启动失败

1.6k 11

查看更多本课问答

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

map和mapPartition

正在回答回答被采纳积分+3

2回答

相似问题