请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

pyspark、sparkML在作用上的区别

老师你好!
我看了一段时间的课程,产生了一个疑惑,希望能帮忙解答一下。

pyspark可以让程序员用python调用spark的接口对海量数据进行处理,提取出某些特征,然后用sklearn训练模型;sparkML也可以让程序员用python处理数据然后做模型训练。那这两个工具的作用是不是有点重叠了?然后在公司里,算法工程师和大数据开发工程师是如何协同工作训练出一个业务的机器学习模型的?

正在回答 回答被采纳积分+3

1回答

Michael_PK 2020-01-30 03:03:17

pyspark很多功能还是有限的。如果使用sparkmllib的话,直接调用已有的api就行。Python机器学习很多是单机的,并不一定都是分布式的

0 回复 有任何疑惑可以回复我~
  • 提问者 qq___107 #1
    也就是说,用sparkmllib就可以完成机器学习的分布式训练?那算法工程师需要掌握scala吗?
    回复 有任何疑惑可以回复我~ 2020-01-30 10:37:13
  • Michael_PK 回复 提问者 qq___107 #2
    算法是思想,靠语言落地,但是使用什么语言是不确定的,得看公司的选型
    回复 有任何疑惑可以回复我~ 2020-01-30 11:47:05
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信