请稍等 ...

map与mapPartitions内部实现的区别

图片描述

我在解析log时使用了mapPartitions，但是碰到了OOM问题，究其原因，我觉得是我使用的statList存放所有解析后的数据，这个list一直存在于内存中造成OOM。但是查了网上的说法，大家都说mapPartitions容易造成OOM，map本身则不会。我就想请问，spark在map的时候，1）将中间结果保存在哪里？2）为什么map的时候不容易OOM？3）我可不可以在mapPartitions里面使用map的一些内存管理的方式来避免OOM？

先在这里谢谢PK老师！

aaaaabbbc 2018-10-31 17:48:24

源自：11-2 -外部数据源接口

1048

收起

提交取消

1回答

Michael_PK 回答被采纳获得+3积分 2018-10-31 17:52:33

map是一条一条的处理，他不存数据啊，只有action才会触发执行。map partition是一个partition数据处理一次，数据量大就oom了么

0 回复有任何疑惑可以回复我~

收起回答

提问者 aaaaabbbc #1

那有没有什么方法可以让我们自己确定分区大小的呢？比如每一千条数据，我就对它们一起进行一次处理？

回复有任何疑惑可以回复我~ 2018-11-01 09:41:13

Michael_PK 回复提问者 aaaaabbbc #2
```
可以，根据数据量预估分区数，手工设置进去
```
回复有任何疑惑可以回复我~ 2018-11-01 09:52:16

提问者 aaaaabbbc 回复 Michael_PK #3

问题就是生产中数据量无法预估，所以无法预估分区数，这时要怎么控制呢？

回复有任何疑惑可以回复我~ 2018-11-01 09:58:42

点开查看后面6条评论

相似问题

ThreadLocal不是使用其内部类ThreadLocalMap吗？

“=”与“==”的区别

v-for 中的 of与 in 有什么区别吗？

map输出顺序

实现button只有内切圆响应点击事件为什么重写hittest

登录后可查看更多问答，登录/注册

以慕课网日志分析为例进入大数据Spark SQL的世界

参与学习 1644 人
解答问题 1129 个

快速转型大数据：Hadoop，Hive，SparkSQL步步为赢

了解课程

本课精华内容

问答

datanode 启动失败

2.0k 6

Spark编译很不顺利

2.1k 6

meaven依赖包下载的慢的看看这个

2.2k 1

spark 编译失败

1.5k 21

spark无法开始编译，我的错误总是那么新颖

1.8k 18

查看更多本课问答

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

map与mapPartitions内部实现的区别

正在回答

1回答

相似问题