spark离线处理读取source数据-慕课网

1回答

Michael_PK 2021-06-18 20:50:25

spark的算子是组成算子链，遇到action时才会真正开始从数据源开始加载数据

0 回复有任何疑惑可以回复我~

提问者 qq_紫蝶侠_0 #1

是遇到action时候开始，DGA的source算子 每个分区分别一次拉取自己所有的数据吗，如果数据是source算子一次拉取所有数据，提交任务时申请内存应该是要根据总的数据量来计算的吗

回复有任何疑惑可以回复我~ 2021-06-28 10:34:06

Michael_PK 回复提问者 qq_紫蝶侠_0 #2

遇到action，内部会进行dag的拆分，遇到shuffle类型的算子就会产生新的stage。
从第一个stage开始计算，每个task从原来拉取对应的数据。一次拉取，比如说hdfs文件是支持分片的，那就会根据分片信息对应task开始执行。每个spark作业提交时肯定是根据对应的计算复杂度以及要处理的数据量来综合考虑的

回复有任何疑惑可以回复我~ 2021-07-01 11:23:44

spark离线处理读取source数据

正在回答回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

提问老师client连接服务器出现的问题

7-3 kudu 部署失败

有HBase之后为什么还需要KUDU

问题：无法下载相关Spark和Scala依赖

kudu-master启动失败

【讨论题】简历项目问题

【讨论题】关于小文件的思考

【讨论题】关于数据倾斜的思考

【讨论题】关于Spark ThriftServer的HA问题

【讨论题】关于拉链表得思考

热搜

最近搜索清空

spark离线处理读取source数据

正在回答 回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

提问老师client连接服务器出现的问题

7-3 kudu 部署失败

有HBase之后为什么还需要KUDU

问题：无法下载相关Spark和Scala依赖

kudu-master启动失败

【讨论题】简历项目问题

【讨论题】关于小文件的思考

【讨论题】关于数据倾斜的思考

【讨论题】关于Spark ThriftServer的HA问题

【讨论题】关于拉链表得思考

正在回答回答被采纳积分+3