请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

rdd的缓存

突然有个问题想不通,rdd本来不就是内存计算么,为啥还要加缓存

正在回答 回答被采纳积分+3

1回答

Michael_PK 2021-04-04 08:53:45

rdd部分官网的persist部分章节,好好阅读下,会有收获的

0 回复 有任何疑惑可以回复我~
  • 提问者 程研板 #1
    哦哦哦,我看懂了,持久化就是保存上次计算的结果,离线计算可以防止多次从hdfs读取相同数据,有个问题,kafka来的数据,如果没持久化,多次计算的话,数据会从kafka那边多次网络io到spark集群,我的理解正确嘛。。。pk哥
    回复 有任何疑惑可以回复我~ 2021-04-04 20:41:24
  • Michael_PK 回复 提问者 程研板 #2
    kafka和spark的整合是通过offset去拉取的,只要offset维护好,就不会有问题
    回复 有任何疑惑可以回复我~ 2021-04-04 21:29:13
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信