采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
突然有个问题想不通,rdd本来不就是内存计算么,为啥还要加缓存
rdd部分官网的persist部分章节,好好阅读下,会有收获的
哦哦哦,我看懂了,持久化就是保存上次计算的结果,离线计算可以防止多次从hdfs读取相同数据,有个问题,kafka来的数据,如果没持久化,多次计算的话,数据会从kafka那边多次网络io到spark集群,我的理解正确嘛。。。pk哥
kafka和spark的整合是通过offset去拉取的,只要offset维护好,就不会有问题
登录后可查看更多问答,登录/注册
大数据生态圈实用框架(Spark/Hbase/Redis/Hadoop)整合应用及调优
1.3k 21
840 11
1.7k 11
1.1k 11
1.4k 11