能详细说一下 driver, executor, job, stage, task 之间的关系吗-慕课网

2回答

Michael_PK 回答被采纳获得+3积分 2020-06-20 18:59:18

我以onyarn模式来解释：executor就是运行在yarn上的nm中的一个container中的，这不是硬件的概念，这是一哥进程的概念，executor是可以多个的，就是多个可以运行在YARN集群之上。一个job只要涉及到shuffle必然就是会拆分多个stage的。分区数的决定因素有很多，比如读数据进来默认分区数，你也可手动设置；reducebykey等算子也可以手工传入分区数

0 回复有任何疑惑可以回复我~

收起回答

提问者 pain7 #1

executor 个数可以随意指定吗，是不是越多计算得越快？一个 job 分到一堆 executor 上面去执行，那么计算任务怎么分的呢

回复有任何疑惑可以回复我~ 2020-06-20 19:42:06

Michael_PK 回复提问者 pain7 #2

exe个数是根据你的数据量以及复杂度来评估的，多点一般情况下是好点的，但是太多就是浪费了。1个job产生的stage里面的作业就是在exe上面运行的，计算任务分配就是spark的dagschudler和taskscheduler进行拆分task的

回复有任何疑惑可以回复我~ 2020-06-20 19:48:31

提问者 pain7 #3
```
非常感谢！
```
回复有任何疑惑可以回复我~ 2020-06-20 20:14:58

Michael_PK 2020-06-20 19:00:19

一个job就是action触发的，一个job可能就会对应1到N个stage，每个stage里面可以包含多个task，你可以跑一个sparkshell，然后通过UI上来观察，就比较好理解了

0 回复有任何疑惑可以回复我~

收起回答

能详细说一下 driver, executor, job, stage, task 之间的关系吗

正在回答

2回答

相似问题

请选择置顶位置

本课精华内容

老师，你用的mac电脑可以直接在上边进行开发测试，我们用的windows电脑，要如何导入spark，进行spark测试呢？

Hadoop启动失败

老师，能不能帮我看看，为啥我浏览器访问kibana是这样的

Spark并行与资源分配的问题

FAILED: SemanticException [Error 10001]: Line 1:28 Table not found 'emp'

热搜

最近搜索清空