请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

spark离线处理读取source数据

老师,spark 离线处理读取hdfs中的数据,是一次读取完任务所有需要的数据,再后续map reduce操作吗

正在回答 回答被采纳积分+3

1回答

Michael_PK 2021-06-18 20:50:25

spark的算子是组成算子链,遇到action时才会真正开始从数据源开始加载数据


0 回复 有任何疑惑可以回复我~
  • 提问者 qq_紫蝶侠_0 #1
    是遇到action时候开始,DGA的source算子 每个分区分别一次拉取自己所有的数据吗,如果数据是source算子一次拉取所有数据,提交任务时申请内存应该是要根据总的数据量来计算的吗
    回复 有任何疑惑可以回复我~ 2021-06-28 10:34:06
  • Michael_PK 回复 提问者 qq_紫蝶侠_0 #2
    遇到action,内部会进行dag的拆分,遇到shuffle类型的算子就会产生新的stage。
    从第一个stage开始计算,每个task从原来拉取对应的数据。一次拉取,比如说hdfs文件是支持分片的,那就会根据分片信息对应task开始执行。每个spark作业提交时肯定是根据对应的计算复杂度以及要处理的数据量来综合考虑的
    回复 有任何疑惑可以回复我~ 2021-07-01 11:23:44
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信