请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

爬取拉钩要登录

现在爬取拉钩需要登录,自己写了登录逻辑,爬取速度也设10秒,发现也不行。折腾好几天了,真心希望老师能补节课程。或者放出这部分的可行的代码出来参考一下啊。

正在回答 回答被采纳积分+3

2回答

起得比鸡还早 2017-08-29 23:49:10

拉钩全站爬取 + JsPageMiddleware 在打断点的时候偶尔是有数据插入的,但是不打断点就j进入不了 CrawlSpider 的_response_downloaded函数啊

0 回复 有任何疑惑可以回复我~
bobby 2017-08-14 14:03:55

这个应该是被判断为爬虫了 如果一定需要登录的话 你可以参考知乎的模拟登录  然后获取到session后再爬取也可以

0 回复 有任何疑惑可以回复我~
  • 但是知乎的登录是直接 yield scrapy.Request 的,可以自己写 header,crawl 是自己去跟踪 url 的,能不能获取到 crawl 中使用的 header 用到登录逻辑中?如果登录和后面的 crawl 自动跟踪 url 使用的 header 不一样会不会有问题?看了下源码,貌似 scrapy 传的是空 header。
    回复 有任何疑惑可以回复我~ 2017-09-02 16:41:55
  • 你解决了么,怎么指定headers
    回复 有任何疑惑可以回复我~ 2017-09-13 22:11:59
  • 没有,拉勾很难爬,我用 selenium 爬的。
    回复 有任何疑惑可以回复我~ 2017-09-16 18:31:21
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信