采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
老师,spark 离线处理读取hdfs中的数据,是一次读取完任务所有需要的数据,再后续map reduce操作吗
spark的算子是组成算子链,遇到action时才会真正开始从数据源开始加载数据
是遇到action时候开始,DGA的source算子 每个分区分别一次拉取自己所有的数据吗,如果数据是source算子一次拉取所有数据,提交任务时申请内存应该是要根据总的数据量来计算的吗
遇到action,内部会进行dag的拆分,遇到shuffle类型的算子就会产生新的stage。 从第一个stage开始计算,每个task从原来拉取对应的数据。一次拉取,比如说hdfs文件是支持分片的,那就会根据分片信息对应task开始执行。每个spark作业提交时肯定是根据对应的计算复杂度以及要处理的数据量来综合考虑的
登录后可查看更多问答,登录/注册
大数据工程师干货课程 带你从入门到实战掌握SparkSQL
1.0k 15
1.0k 14
1.3k 12
1.7k 12
1.3k 11