采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
老师,请问一下,您实际工作中的生产环境是使用了多少台机器组建spark集群,线上生产环境处理1T的数据大概是用多长时间能处理完,另外对于集群和处理速度上有没有一个计算比率或参考,比如 多少台机器处理多少G的数据能控制在多少秒或是多少分钟,能否给出一个你们生产环境中的参考数据或经验值。
我们的spark都是跑在yarn上,所以并没有什么所谓的spark集群,其实就是spark作为一个客户端提交到yarn上执行。你说的这个处理1T的数据要多少时间,这个是没有准确说法的,因为不知道你要基于这些数据做什么分析,比如你是计算count呢还是要进行复杂的计算,这个差别是非常大的
老师,这块能不能举一下你们实际生产环境中某个计算,处理数据量及用时的例子。程序这块是明白了,现在是不清楚如果给客户搭建一套生产环境的话,需要让客户准备多少台机器(大概硬件需要什么样的配置)?如果都是跑在yarn上,hadoop需要准备多少台机器?主要是这些不太清楚,另外客户要是问准备10台机器处理速度能到一个什么程度,20台机器处理速度能到一个什么程度,这块没有一个参考值。想听一下您之前的经验值。
这个要看机器的配置的,然后看处理的复杂度,以及你作业配置的资源的,这个真给不出标准值,必须你们要有几台机器测试下,然后根据测试使用的资源以及处理速度来放大才知道。
噢,好的
登录后可查看更多问答,登录/注册
快速转型大数据:Hadoop,Hive,SparkSQL步步为赢
1.6k 6
1.8k 6
1.9k 1
1.2k 21
1.5k 18