请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

spark 分布式计算

  1. 老师,我们项目是做案件分析,然后数据导入的时候,做了一些清洗规则,然后ETL,入图库,图库现在用的是solr + hbase,但是后面进行分析的时候(如交易汇聚、来源去向什么的),实际上还是在一台机器上,将图数据缓存在内存中,然后序列化到文件中,下次同样的参数分析,直接是将文件内容给烦序列化,那其实还是在遍历,很多遍历,数据量大的时候,就会很慢,因为其实还是在一台机器上做,虽然现场机器10多台,但是集群分布式效果根本没有利用到。
  2. 老师,想问下,如果是用spark做分布式图计算的话,是不是效果很好,spark是不是专门做这样的分布式计算的,谢谢老师

正在回答

1回答

spark的图计算也可以,用业界的其他图数据库存储都是可以的。你所说的在一个机器上存数据?这个不是太明白,图数据库很多都是集群的呢,也就是说都是分布式的

0 回复 有任何疑惑可以回复我~
  • 提问者 奶茶三兄弟d #1
    就是我们现在数据分析的时候,其实都是在一台机器上,做内存分析的,没有集群的概念,然后这个solr + hbase这个图库其实分析的时候没有用到(很多原因。。。),然后现在数据量大就很慢,现在想要做的就是替换成spark,把机器给利用上,这样应该不管是spark直接对关系型数据分析也好,还是图数据也好,应该会快的,老师,这边您的哪一个课程,能让我快速了解,或者说是专门讲spark分布式计算这块的,
    回复 有任何疑惑可以回复我~ 2021-02-03 10:43:30
  • Michael_PK 回复 提问者 奶茶三兄弟d #2
    那你这个需要定一个方案,看看如何把单机的东西进行迁移到集群的方式就可以呢。单机的数据量肯定是有瓶颈的,早晚有一天会不够的。你描述的一些技术solr或者hbase或者spark,都是支持分布式的执行的呢,用spark对hbase或者solr的数据进行读写、分析均可以
    回复 有任何疑惑可以回复我~ 2021-02-04 18:35:47
  • 提问者 奶茶三兄弟d 回复 Michael_PK #3
    目前应该是要用spark,想让我们调研技术栈,老师您有推荐的课程可以看看嘛,谢谢
    回复 有任何疑惑可以回复我~ 2021-02-05 13:48:43
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信