请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

老师请教一下关于集群机器数量和处理速度方面的问题

老师,请问一下,您实际工作中的生产环境是使用了多少台机器组建spark集群,线上生产环境处理1T的数据大概是用多长时间能处理完,另外对于集群和处理速度上有没有一个计算比率或参考,比如 多少台机器处理多少G的数据能控制在多少秒或是多少分钟,能否给出一个你们生产环境中的参考数据或经验值。

正在回答 回答被采纳积分+3

1回答

Michael_PK 2017-10-02 22:56:30

我们的spark都是跑在yarn上,所以并没有什么所谓的spark集群,其实就是spark作为一个客户端提交到yarn上执行。你说的这个处理1T的数据要多少时间,这个是没有准确说法的,因为不知道你要基于这些数据做什么分析,比如你是计算count呢还是要进行复杂的计算,这个差别是非常大的

0 回复 有任何疑惑可以回复我~
  • 提问者 慕粉1426268445 #1
    老师,这块能不能举一下你们实际生产环境中某个计算,处理数据量及用时的例子。程序这块是明白了,现在是不清楚如果给客户搭建一套生产环境的话,需要让客户准备多少台机器(大概硬件需要什么样的配置)?如果都是跑在yarn上,hadoop需要准备多少台机器?主要是这些不太清楚,另外客户要是问准备10台机器处理速度能到一个什么程度,20台机器处理速度能到一个什么程度,这块没有一个参考值。想听一下您之前的经验值。
    回复 有任何疑惑可以回复我~ 2017-10-04 00:11:38
  • Michael_PK 回复 提问者 慕粉1426268445 #2
    这个要看机器的配置的,然后看处理的复杂度,以及你作业配置的资源的,这个真给不出标准值,必须你们要有几台机器测试下,然后根据测试使用的资源以及处理速度来放大才知道。
    回复 有任何疑惑可以回复我~ 2017-10-04 00:23:46
  • 提问者 慕粉1426268445 回复 Michael_PK #3
    噢,好的
    回复 有任何疑惑可以回复我~ 2017-10-05 10:23:29
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信