老师请教一下关于集群机器数量和处理速度方面的问题-慕课网

1回答

Michael_PK 2017-10-02 22:56:30

我们的spark都是跑在yarn上，所以并没有什么所谓的spark集群，其实就是spark作为一个客户端提交到yarn上执行。你说的这个处理1T的数据要多少时间，这个是没有准确说法的，因为不知道你要基于这些数据做什么分析，比如你是计算count呢还是要进行复杂的计算，这个差别是非常大的

0 回复有任何疑惑可以回复我~

收起回答

提问者慕粉1426268445 #1

老师，这块能不能举一下你们实际生产环境中某个计算，处理数据量及用时的例子。程序这块是明白了，现在是不清楚如果给客户搭建一套生产环境的话，需要让客户准备多少台机器（大概硬件需要什么样的配置）？如果都是跑在yarn上，hadoop需要准备多少台机器？主要是这些不太清楚，另外客户要是问准备10台机器处理速度能到一个什么程度，20台机器处理速度能到一个什么程度，这块没有一个参考值。想听一下您之前的经验值。

回复有任何疑惑可以回复我~ 2017-10-04 00:11:38

Michael_PK 回复提问者慕粉1426268445 #2

这个要看机器的配置的，然后看处理的复杂度，以及你作业配置的资源的，这个真给不出标准值，必须你们要有几台机器测试下，然后根据测试使用的资源以及处理速度来放大才知道。

回复有任何疑惑可以回复我~ 2017-10-04 00:23:46

提问者慕粉1426268445 回复 Michael_PK #3
```
噢，好的
```
回复有任何疑惑可以回复我~ 2017-10-05 10:23:29

老师请教一下关于集群机器数量和处理速度方面的问题

正在回答回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

datanode 启动失败

Spark编译很不顺利

meaven依赖包下载的慢的看看这个

spark 编译失败

spark无法开始编译，我的错误总是那么新颖

热搜

最近搜索清空