请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

CountVectorizer和TfidfTransformer的问题

老师,您的步骤是:

  1. 读取文件,分词,整合成数据集

  2. 转化向量

  3. 特征工程

  4. 训练

其中第2步到第3步我没看明白,转化成词向量可以理解,为什么之后还要提取特征,才能训练呢?

count_vector.fit_transform(train_data)

TfidfTransformer(use_idf=False).fit_transform(vector_matrix)

这两步内部分别作了哪些事情?


正在回答 回答被采纳积分+3

1回答

Mr_Ricky 2018-08-16 15:36:31

第二步到第三步实际上在转换为词向量之后我们是读取了训练数据的tfidf的值,然后再利用这个值进行训练。下面这两句实际上也就是在做这件事。并不是说提取特征,可能我用提取特征这几个字表达的稍微有点会误导,实际上只是提取其tfidf的值。

0 回复 有任何疑惑可以回复我~
  • 提问者 丨越丨 #1
    也就是说第3步操作,其实提取的是这个训练集里面每一条语句中,重要性代表性最高的词语呗?这个具体提取了多少词语,有没有参数的设置?
    回复 有任何疑惑可以回复我~ 2018-08-16 15:47:08
  • Mr_Ricky 回复 提问者 丨越丨 #2
    是的,这个参数其实你可以去网上找一下sklearn的这个tfidf的用法和说明,比较详细
    回复 有任何疑惑可以回复我~ 2018-08-16 15:48:51
问题已解决,确定采纳
还有疑问,暂不采纳
NLP实践TensorFlow打造聊天机器人
  • 参与学习       673    人
  • 解答问题       281    个

解析自然语言处理( NLP )常用技术,从0搭建聊天机器人应用并部署上线,可用于毕设。

了解课程
意见反馈 帮助中心 APP下载
官方微信