请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

如何进行分布式计算

前提: spark集群, 01(master), 02, 03
问题: 读取cvs文件做计算,大概400w条数据,执行三组命令, 他们的执行时间是一致的(相差很少),并没有我想要的分布式计算。是那个地方出了问题。
bin/spark-submit --master local --driver-memory 4g /root/we.p
bin/spark-submit --master yarn --driver-memory 4g /root/we.py
bin/spark-submit --master spark://01:7077 --driver-memory 4g /root/we.py
代码如下:
图片描述

正在回答 回答被采纳积分+3

1回答

Michael_PK 2021-12-14 22:38:52

这个问题是不是有个帖子回复过的?


spark.read.csv这个就是一个分布式的计算的,你那只是三个不同的spark运行模式而已。

第一个是local,直接使用本地资源,单线程的,因为你是local

第二个是onyarn,使用yarn的container中运行

第三个是spark standalone默认,是运行在worker上

你这数据量小没啥感受的,直观上感觉不出来的,你说的时间差不多,这个分布式计算没有直接关系

0 回复 有任何疑惑可以回复我~
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信