采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
现在爬取拉钩需要登录,自己写了登录逻辑,爬取速度也设10秒,发现也不行。折腾好几天了,真心希望老师能补节课程。或者放出这部分的可行的代码出来参考一下啊。
拉钩全站爬取 + JsPageMiddleware 在打断点的时候偶尔是有数据插入的,但是不打断点就j进入不了 CrawlSpider 的_response_downloaded函数啊
这个应该是被判断为爬虫了 如果一定需要登录的话 你可以参考知乎的模拟登录 然后获取到session后再爬取也可以
但是知乎的登录是直接 yield scrapy.Request 的,可以自己写 header,crawl 是自己去跟踪 url 的,能不能获取到 crawl 中使用的 header 用到登录逻辑中?如果登录和后面的 crawl 自动跟踪 url 使用的 header 不一样会不会有问题?看了下源码,貌似 scrapy 传的是空 header。
你解决了么,怎么指定headers
没有,拉勾很难爬,我用 selenium 爬的。
登录后可查看更多问答,登录/注册
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
4.4k 30
2.3k 18
821 18
1.1k 15
2.1k 15