采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
老师,您的步骤是:
读取文件,分词,整合成数据集
转化向量
特征工程
训练
其中第2步到第3步我没看明白,转化成词向量可以理解,为什么之后还要提取特征,才能训练呢?
count_vector.fit_transform(train_data)
TfidfTransformer(use_idf=False).fit_transform(vector_matrix)
这两步内部分别作了哪些事情?
第二步到第三步实际上在转换为词向量之后我们是读取了训练数据的tfidf的值,然后再利用这个值进行训练。下面这两句实际上也就是在做这件事。并不是说提取特征,可能我用提取特征这几个字表达的稍微有点会误导,实际上只是提取其tfidf的值。
也就是说第3步操作,其实提取的是这个训练集里面每一条语句中,重要性代表性最高的词语呗?这个具体提取了多少词语,有没有参数的设置?
是的,这个参数其实你可以去网上找一下sklearn的这个tfidf的用法和说明,比较详细
登录后可查看更多问答,登录/注册
解析自然语言处理( NLP )常用技术,从0搭建聊天机器人应用并部署上线,可用于毕设。
1.1k 9
956 6
1.1k 5
2.3k 5
4.2k 4
购课补贴联系客服咨询优惠详情
慕课网APP您的移动学习伙伴
扫描二维码关注慕课网微信公众号