请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

subword and tokenizer

老师,subword和tokenizer这两个好像都是文本信息生成词表,二者有什么区别吗,应用场景上有什么区别?
是不是也可以分别遍历本案例中的数据集中的英文和葡萄牙文本,然后再用tokenizer来生成词表?
但我用如下代码,尝试用tokenizer生成词表,确报错了
en_tokenizer=keras.preprocessing.text.Tokenizer(num_words=None,filters=’’)
en_tokenizer.fit_on_texts(en.numpy() for pt,en in train_examples)
error:a bytes-like object is required, not ‘dict’

正在回答

1回答

正十七 2021-08-07 16:03:24

你说的是tf.keras.preprocessing.text.Tokenizer和tfds.deprecated.text.SubwordTextEncoder的区别?

前者无法做subword啊,只能按照一些分隔符去呆呆的分词,后者可以帮你做subword切分。比如两个词语 “abc defg",

前者只能切成”abc" "defg" 或者 “a" "b", "c", "d", "e", "f", "g". 而后者可以切成 ”ab" "c" "de" "fg"类似的样子。

0 回复 有任何疑惑可以回复我~

相似问题

登录后可查看更多问答,登录/注册

问题已解决,确定采纳
还有疑问,暂不采纳
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号