请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

拉勾网重定向无法爬取

在用scrapy进行拉勾网站的爬取,我想抓取python 相关的职位,start_url="https://www.lagou.com/zhaopin/Python/?labelWords=label",

但是我用pycharm调试功能查看,爬虫运行之后,会把这条链接重定向到

"https://www.lagou.com/utrack/trackMid.html?f=https%3A%2F%2Fpassport.lagou.com%2Flogin%2Flogin.html%3Fmsg%3Dvalidation%26uStatus%3D2%26clientIp%3Dxx.xx.xx.xx1&t=1507458004&_ti=1"这个地方,然后查看response.text也没有内容,也增加了headers,可是在浏览器里却可以正常访问,排查了好长时间,始终不知道拉勾网是怎么知道scrapy请求和浏览器请求区别的,没有找到知道问题所在,为啥连第一个url都不能请求,还有一点我继承的是Spider类,这个连接的内容在scrapy shell 里边却可以获取.

以下截图分别是源码/控制台输出/response.text内容/scrapy shell请求url,并查看text内容:

https://img1.sycdn.imooc.com/szimg//59da02010001f79109190493.jpg

https://img1.sycdn.imooc.com/szimg//59da0201000147fa15030295.jpg

https://img1.sycdn.imooc.com/szimg//59da02010001939e11990543.jpg

https://img1.sycdn.imooc.com/szimg//59da02020001014c10620446.jpg

求老师解惑

正在回答 回答被采纳积分+3

3回答

提问者 L风之岚歌 2017-10-09 17:08:21

问题已解决,谢谢老师!

2 回复 有任何疑惑可以回复我~
缘茜行 2019-06-26 16:39:59

求问怎么解决的啊,我也遇到了相同的问题

0 回复 有任何疑惑可以回复我~
Biandonglei 2019-02-08 20:24:22

我这边也有这个问题,怎么解决的的???

0 回复 有任何疑惑可以回复我~
  • 换ip,然后重新登陆一下,拿重新登陆的cookie去爬取就可以了
    回复 有任何疑惑可以回复我~ 2019-02-18 16:17:21
  • 我又试了一下,就算不用代理ip的话好像也可以,就是要每次开启爬虫时要自己先登录一下就好了
    回复 有任何疑惑可以回复我~ 2019-02-18 17:23:23
问题已解决,确定采纳
还有疑问,暂不采纳
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号