请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

Pipleline的Tokenizer

在使用Tokenizer时,提示words应该是一个string,而不能是List:
val tokenizer = new Tokenizer()
.setInputCol(“words”)
.setOutputCol(“features”)
请问老师,Tokenizer支持非string的列吗,在非pipeline的代码中,words作为List是可以被训练的。

正在回答 回答被采纳积分+3

1回答

Wotchin 2019-01-07 21:36:12

“在非pipeline的代码中,words作为List是可以被训练的” 这部分的pipeline代码具体是什么样的?可以贴一下。
这个类的功能是分词,英文分词很简单,按照空格分割就可以了,稍微复杂一点的可以配合正则,基本上就够用了。分词顾名思义就是把字符串分割成独立的单词,既然已经是list的形式了,为什么还要进行分词呢?
这部分的官方说明在:
http://spark.apache.org/docs/latest/ml-features.html#tokenizer

0 回复 有任何疑惑可以回复我~
问题已解决,确定采纳
还有疑问,暂不采纳
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号