请稍等 ...

CountVectorizer和TfidfTransformer的问题

老师，您的步骤是：

读取文件，分词，整合成数据集
转化向量
特征工程
训练

其中第2步到第3步我没看明白，转化成词向量可以理解，为什么之后还要提取特征，才能训练呢？

count_vector.fit_transform(train_data)

TfidfTransformer(use_idf=False).fit_transform(vector_matrix)

这两步内部分别作了哪些事情？

丨越丨 2018-08-16 13:39:13

源自：4-10 朴素贝叶斯例子（2）

1336

收起

提交取消

1回答

Mr_Ricky 2018-08-16 15:36:31

第二步到第三步实际上在转换为词向量之后我们是读取了训练数据的tfidf的值，然后再利用这个值进行训练。下面这两句实际上也就是在做这件事。并不是说提取特征，可能我用提取特征这几个字表达的稍微有点会误导，实际上只是提取其tfidf的值。

0 回复有任何疑惑可以回复我~

收起回答

提问者丨越丨 #1

也就是说第3步操作，其实提取的是这个训练集里面每一条语句中，重要性代表性最高的词语呗？这个具体提取了多少词语，有没有参数的设置？

回复有任何疑惑可以回复我~ 2018-08-16 15:47:08

Mr_Ricky 回复提问者丨越丨 #2

是的，这个参数其实你可以去网上找一下sklearn的这个tfidf的用法和说明，比较详细

回复有任何疑惑可以回复我~ 2018-08-16 15:48:51

相似问题

想问点回溯法和DP的问题

url-loader 和 file-loader 的问题

继尚未解决的闪屏问题和devtools冲突问题

桥接和host的问题

在storybook和App.tsx中都出现的一个问题

登录后可查看更多问答，登录/注册

NLP实践TensorFlow打造聊天机器人

参与学习 673 人
解答问题 281 个

解析自然语言处理（ NLP ）常用技术，从0搭建聊天机器人应用并部署上线，可用于毕设。

了解课程

本课精华内容

问答

关于安卓端报错

1.3k 9

真机测试时，程序不能返回信息并报错

1.2k 6

r''是python2的语法吗

1.3k 5

训练模型时出现错误

2.7k 5

use 'pytest --fixtures [testpath]' for help on them.

4.4k 4

查看更多本课问答

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

CountVectorizer和TfidfTransformer的问题

正在回答回答被采纳积分+3

1回答

相似问题