请稍等 ...

rdd的缓存

突然有个问题想不通，rdd本来不就是内存计算么，为啥还要加缓存

程研板 2021-04-03 22:52:11

源自：6-11 功能开发之调优

719

收起

提交取消

1回答

Michael_PK 2021-04-04 08:53:45

rdd部分官网的persist部分章节，好好阅读下，会有收获的

0 回复有任何疑惑可以回复我~

收起回答

提问者程研板 #1

哦哦哦，我看懂了，持久化就是保存上次计算的结果，离线计算可以防止多次从hdfs读取相同数据，有个问题，kafka来的数据，如果没持久化，多次计算的话，数据会从kafka那边多次网络io到spark集群，我的理解正确嘛。。。pk哥

回复有任何疑惑可以回复我~ 2021-04-04 20:41:24

Michael_PK 回复提问者程研板 #2

kafka和spark的整合是通过offset去拉取的，只要offset维护好，就不会有问题

回复有任何疑惑可以回复我~ 2021-04-04 21:29:13

相似问题

缓存fetch

缓存问题

关于缓存的问题

二级缓存如何避免缓存雪崩？数据预热如何实现？

关于强制缓存的问题

登录后可查看更多问答，登录/注册

Spark进阶大数据离线与实时项目实战

参与学习 700 人
解答问题 190 个

大数据生态圈实用框架(Spark/Hbase/Redis/Hadoop)整合应用及调优

了解课程

本课精华内容

问答作业

java.lang.NoSuchMethodError错误

1.4k 21

java.lang.OutOfMemoryError: Java heap space错误

984 11

IDEA 无法访问远程虚拟机的datanode拿到数据

1.9k 11

关于虚拟机设置机器名

1.2k 11

编译支持hadoop2.6.0-cdh5.15.1的spark3.0.0失败

1.6k 11

查看更多本课问答

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

rdd的缓存

正在回答回答被采纳积分+3

1回答

相似问题