老师好,前面分类的时候您提到svm的核函数目前spark并不支持并行计算,也就没实现(大概意思)。我粗浅的理解k-means等也类似,并行计算难度也很大呢,如随机森林等,很适合并行计算,但是好多算法感觉并不适合并行。以k-means为例,算法执行的顺序我理解是如下过程:随机取种子环节,新的中心点获取则是一个mr的逻辑,然后重新计算后的中心点,又可以广播到所有节点重新mr进行评估偏差大小,如此往复循环,直至最优,下一个环节只能等待上一个环节的结果。或者这本身就是并行,其实在这个过程中,实现的是计算的并行,并非算法并行呢,是不是我对并行的理解有问题?
一直没想明白,麻烦老师指点迷津,谢谢老师~