请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

知乎question页面爬取

遇到几个小问题

1、有时爬虫无法进入问题解析函数就自己停止了,原因好像是将知乎首页https的链接写成了http,导致一会儿爬虫自己找到了https的链接,一会儿找不到。

2、有时question_item会有好几个值取不到,找了相关链接,一切代码都正常。还没找到原因。

正在回答 回答被采纳积分+3

1回答

bobby 2018-02-19 18:42:29
  1. scrapy处理https是没有问题的 你可以看一下pycharm的console是不是某些页面的状态码不是200?

  2. question_item有可能是因为知乎的接口数据格式变了, 你根据你能提取到的值继续课程就行了

0 回复 有任何疑惑可以回复我~
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信