请稍等 ...

如何进行分布式计算

前提： spark集群， 01（master）， 02， 03
问题：读取cvs文件做计算，大概400w条数据，执行三组命令，他们的执行时间是一致的（相差很少），并没有我想要的分布式计算。是那个地方出了问题。
bin/spark-submit --master local --driver-memory 4g /root/we.p
bin/spark-submit --master yarn --driver-memory 4g /root/we.py
bin/spark-submit --master spark://01:7077 --driver-memory 4g /root/we.py
代码如下：
图片描述

王虎i 2021-12-13 17:50:52

源自：6-18 快速了解Spark SQL进行数据分析

731

收起

提交取消

1回答

Michael_PK 2021-12-14 22:38:52

这个问题是不是有个帖子回复过的？

spark.read.csv这个就是一个分布式的计算的，你那只是三个不同的spark运行模式而已。

第一个是local，直接使用本地资源，单线程的，因为你是local

第二个是onyarn，使用yarn的container中运行

第三个是spark standalone默认，是运行在worker上

你这数据量小没啥感受的，直观上感觉不出来的，你说的时间差不多，这个分布式计算没有直接关系

0 回复有任何疑惑可以回复我~

相似问题

spark 分布式计算

算法

关于分布式锁避免并发

老师，有没有统计量可帮助判断样本的分布和样本的总体分布？

分布式redis

登录后可查看更多问答，登录/注册

Spark3实时处理-Streaming+StructuredStreaming实战

参与学习 350 人
解答问题 238 个

实战Spark3实时处理，掌握两套企业级处理方案

了解课程

本课精华内容

问答作业

Hbase本地idea查询卡死

2.5k 15

使用foreach方法保存offset相关信息时，offset相关信息必须作为groupby参数传递，统计结果表不能聚合

1.5k 15

报错

1.8k 12

报错ClassNotFoundException: org.apache.但是这个HTTPCLIENT在我的POM里已经导入了

1.4k 11

调用2次foreach方法分别保存到redis的2个key时,只有第2次保存成功

1.7k 9

查看更多本课问答

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

扫描二维码
关注慕课网微信公众号