请稍等 ...

Pipleline的Tokenizer

在使用Tokenizer时，提示words应该是一个string，而不能是List：
val tokenizer = new Tokenizer()
.setInputCol(“words”)
.setOutputCol(“features”)
请问老师，Tokenizer支持非string的列吗，在非pipeline的代码中，words作为List是可以被训练的。

weibo_小朋打酱油_0 2019-01-06 22:34:25

源自：11-5 训练分类模型

546

收起

提交取消

1回答

Wotchin 2019-01-07 21:36:12

“在非pipeline的代码中，words作为List是可以被训练的” 这部分的pipeline代码具体是什么样的？可以贴一下。
这个类的功能是分词，英文分词很简单，按照空格分割就可以了，稍微复杂一点的可以配合正则，基本上就够用了。分词顾名思义就是把字符串分割成独立的单词，既然已经是list的形式了，为什么还要进行分词呢？
这部分的官方说明在:
http://spark.apache.org/docs/latest/ml-features.html#tokenizer

0 回复有任何疑惑可以回复我~

收起回答