采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
老师你好! 我看了一段时间的课程,产生了一个疑惑,希望能帮忙解答一下。
pyspark可以让程序员用python调用spark的接口对海量数据进行处理,提取出某些特征,然后用sklearn训练模型;sparkML也可以让程序员用python处理数据然后做模型训练。那这两个工具的作用是不是有点重叠了?然后在公司里,算法工程师和大数据开发工程师是如何协同工作训练出一个业务的机器学习模型的?
pyspark很多功能还是有限的。如果使用sparkmllib的话,直接调用已有的api就行。Python机器学习很多是单机的,并不一定都是分布式的
也就是说,用sparkmllib就可以完成机器学习的分布式训练?那算法工程师需要掌握scala吗?
算法是思想,靠语言落地,但是使用什么语言是不确定的,得看公司的选型
登录后可查看更多问答,登录/注册
使用Python3对Spark应用程序进行开发调优,掌握Azkaban任务调度
1.1k 16
967 15
847 14
909 12
2.0k 11