采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
老师您好,我差不多学习完了整个知乎的爬虫。对于验证码识别那一部分收获很多。 但是对于后面的知乎爬虫的逻辑,是不是只进行了知乎第一页问题列表的采集,没有问题列表页的翻页呢? 还是我落下了什么
知乎的爬虫 只通过列表页肯定不行,要尽量多的抓取,可以采用深度抓取比如随便进入一个问题,右侧会有相关问题 ,通过这些相关问题继续深度抓取就能抓取很多的问题,如果遇到用户了 点击进入用户主页 也能抓到很多问题
谢谢老师 之前写过的大多数都是列表-详情页的逻辑。对深度优先一直没什么尝试
好的,在scrapy中只需要在该yield的地方yield request就行了
登录后可查看更多问答,登录/注册
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
4.9k 30
2.6k 18
1.3k 18
1.5k 15
3.0k 15
购课补贴联系客服咨询优惠详情
慕课网APP您的移动学习伙伴
扫描二维码关注慕课网微信公众号