老师,subword和tokenizer这两个好像都是文本信息生成词表,二者有什么区别吗,应用场景上有什么区别?
是不是也可以分别遍历本案例中的数据集中的英文和葡萄牙文本,然后再用tokenizer来生成词表?
但我用如下代码,尝试用tokenizer生成词表,确报错了
en_tokenizer=keras.preprocessing.text.Tokenizer(num_words=None,filters=’’)
en_tokenizer.fit_on_texts(en.numpy() for pt,en in train_examples)
error:a bytes-like object is required, not ‘dict’