采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
在使用Tokenizer时,提示words应该是一个string,而不能是List: val tokenizer = new Tokenizer() .setInputCol(“words”) .setOutputCol(“features”) 请问老师,Tokenizer支持非string的列吗,在非pipeline的代码中,words作为List是可以被训练的。
“在非pipeline的代码中,words作为List是可以被训练的” 这部分的pipeline代码具体是什么样的?可以贴一下。 这个类的功能是分词,英文分词很简单,按照空格分割就可以了,稍微复杂一点的可以配合正则,基本上就够用了。分词顾名思义就是把字符串分割成独立的单词,既然已经是list的形式了,为什么还要进行分词呢? 这部分的官方说明在: http://spark.apache.org/docs/latest/ml-features.html#tokenizer
登录后可查看更多问答,登录/注册
案例+原理+代码 提升大数据处理能力
2.0k 14
1.1k 11
1.4k 7
1.0k 6
3.6k 5
购课补贴联系客服咨询优惠详情
慕课网APP您的移动学习伙伴
扫描二维码关注慕课网微信公众号