请稍等 ...

subword and tokenizer

老师，subword和tokenizer这两个好像都是文本信息生成词表，二者有什么区别吗，应用场景上有什么区别？
是不是也可以分别遍历本案例中的数据集中的英文和葡萄牙文本，然后再用tokenizer来生成词表？
但我用如下代码，尝试用tokenizer生成词表，确报错了
en_tokenizer=keras.preprocessing.text.Tokenizer(num_words=None,filters=’’)
en_tokenizer.fit_on_texts(en.numpy() for pt,en in train_examples)
error：a bytes-like object is required, not ‘dict’

qq_慕前端4252840 2021-08-03 22:57:04

源自：10-15 数据预处理与dataset生成

527

收起

提交取消

1回答

正十七 2021-08-07 16:03:24

你说的是tf.keras.preprocessing.text.Tokenizer和tfds.deprecated.text.SubwordTextEncoder的区别？

前者无法做subword啊，只能按照一些分隔符去呆呆的分词，后者可以帮你做subword切分。比如两个词语 “abc defg",

前者只能切成”abc" "defg" 或者 “a" "b", "c", "d", "e", "f", "g". 而后者可以切成 ”ab" "c" "de" "fg"类似的样子。

0 回复有任何疑惑可以回复我~

提问者 qq_慕前端4252840 #1
```
非常感谢！
```
回复有任何疑惑可以回复我~ 2021-08-07 23:38:16

相似问题

es7版本的问题

map_reduce_chain.invoke()执行报错

Not And Or 的练习提问

And 和 or的优先级

Pipleline的Tokenizer

登录后可查看更多问答，登录/注册

Google老师亲授 TensorFlow2.0 入门到进阶

参与学习 1849 人
解答问题 896 个

Tensorflow2.0实战—以实战促理论的方式学习深度学习

了解课程

本课精华内容

问答

如何确定神经网络的层数以及每一层的神经元数目？

3.3k 1

tensorflow如何进行超参数搜索呢？

1.9k 3

老师我运行那个第二章第一个程序的第二段出现下面的问题时咋回事啊

1.7k 19

使用函数式API训练wide and deep模型出错

1.9k 13

RuntimeError: 。。does not set or modifies parameter layer_size

2.7k 7

查看更多本课问答

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

扫描二维码
关注慕课网微信公众号