请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

全网爬取拉钩时出现的问题

拉勾网全网爬取问题
用crawl模板全网爬取的时候,如果不用cookie,就会出现登录重定向,但是如果用模拟登录,就会出现utrack重定向,这样就有点矛盾了。如何爬取呢?

正在回答 回答被采纳积分+3

1回答

提问者 缘茜行 2019-06-26 00:24:22

我在想会不会是网页结构是否并不固定,而是动态改变的?

0 回复 有任何疑惑可以回复我~
  • bobby #1
    其实utrack是一个验证码的页面,也就是说发现你账号异常,会让你输入验证码,出现302也就是发现你是爬虫就让你登录,你可以设置一下抓取频率,但是规律的频率也容易被发现。所以scrapy会提供随机的抓取频率 https://www.jianshu.com/p/d78624ea4f87 你可以看看这个
    回复 有任何疑惑可以回复我~ 2019-06-26 19:49:26
  • 何杨233 回复 bobby #2
    我的也是302 utrack, 用了随机UA随机延时 , 延时10秒,但是爬一会还是会有302
    回复 有任何疑惑可以回复我~ 2019-07-05 19:00:20
问题已解决,确定采纳
还有疑问,暂不采纳
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号