前提: spark集群, 01(master), 02, 03
问题: 读取cvs文件做计算,大概400w条数据,执行三组命令, 他们的执行时间是一致的(相差很少),并没有我想要的分布式计算。是那个地方出了问题。
bin/spark-submit --master local --driver-memory 4g /root/we.p
bin/spark-submit --master yarn --driver-memory 4g /root/we.py
bin/spark-submit --master spark://01:7077 --driver-memory 4g /root/we.py
代码如下: