请稍等 ...

知乎question页面爬取

遇到几个小问题

1、有时爬虫无法进入问题解析函数就自己停止了，原因好像是将知乎首页https的链接写成了http，导致一会儿爬虫自己找到了https的链接，一会儿找不到。

2、有时question_item会有好几个值取不到，找了相关链接，一切代码都正常。还没找到原因。

燕燕于飞 2018-02-12 20:40:12

源自：6-15 item loder方式提取question - 2

883

收起

提交取消

1回答

bobby 2018-02-19 18:42:29

scrapy处理https是没有问题的你可以看一下pycharm的console是不是某些页面的状态码不是200？
question_item有可能是因为知乎的接口数据格式变了，你根据你能提取到的值继续课程就行了

0 回复有任何疑惑可以回复我~

相似问题

知乎爬取问题

学习爬取知乎首页所有question，发现提取网页源码的href解析出question的url是不能深度爬取全站所有question的url

知乎爬取answer

爬取拉钩要登录

用scrapy-redis爬知乎报错

登录后可查看更多问答，登录/注册

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

参与学习 5831 人
解答问题 6293 个

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

了解课程

本课精华内容

问答作业

Missing argument grant_type

5.7k 30

MysqlTwistedPipline的对象没有cursor属性

3.1k 18

知乎answer提取不到

1.8k 18

为什么知乎数据导入不到MySQL数据库中？

2.0k 15

运行 scrapy crawl jobbole 报错

3.6k 15

查看更多本课问答

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

扫描二维码
关注慕课网微信公众号