请稍等 ...

爬取拉钩要登录

现在爬取拉钩需要登录，自己写了登录逻辑，爬取速度也设10秒，发现也不行。折腾好几天了，真心希望老师能补节课程。或者放出这部分的可行的代码出来参考一下啊。

xmzls 2017-08-13 17:55:43

源自：7-6 item loader方式解析职位

1665

收起

提交取消

2回答

起得比鸡还早 2017-08-29 23:49:10

拉钩全站爬取 + JsPageMiddleware 在打断点的时候偶尔是有数据插入的，但是不打断点就j进入不了 CrawlSpider 的_response_downloaded函数啊

0 回复有任何疑惑可以回复我~

bobby 2017-08-14 14:03:55

这个应该是被判断为爬虫了如果一定需要登录的话你可以参考知乎的模拟登录然后获取到session后再爬取也可以

0 回复有任何疑惑可以回复我~

逍遥明月 #1

但是知乎的登录是直接 yield scrapy.Request 的，可以自己写 header，crawl 是自己去跟踪 url 的，能不能获取到 crawl 中使用的 header 用到登录逻辑中？如果登录和后面的 crawl 自动跟踪 url 使用的 header 不一样会不会有问题？看了下源码，貌似 scrapy 传的是空 header。

回复有任何疑惑可以回复我~ 2017-09-02 16:41:55

慕圣1554054 回复逍遥明月 #2
```
你解决了么，怎么指定headers
```
回复有任何疑惑可以回复我~ 2017-09-13 22:11:59
逍遥明月回复慕圣1554054 #3
```
没有，拉勾很难爬，我用 selenium 爬的。
```
回复有任何疑惑可以回复我~ 2017-09-16 18:31:21

相似问题

只爬取，不处理

获取了登录后的cookie无法获取具体信息

爬取拉钩老是被重定向，

老师现在拉勾网的反爬策略是什么呢？

无法爬取拉钩信息

登录后可查看更多问答，登录/注册

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

参与学习 5831 人
解答问题 6293 个

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

了解课程

本课精华内容

问答作业

Missing argument grant_type

5.7k 30

MysqlTwistedPipline的对象没有cursor属性

3.1k 18

知乎answer提取不到

1.8k 18

为什么知乎数据导入不到MySQL数据库中？

2.0k 15

运行 scrapy crawl jobbole 报错

3.6k 15

查看更多本课问答

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

扫描二维码
关注慕课网微信公众号