请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

获取了登录后的cookie无法获取具体信息

请问老师我登录成功获取到了cookie,用这个cookie去requests请求拉钩首页都是正常的,也显示了我的用户名,但带上登录成功后的cookie去请求https://www.lagou.com/jobs/list_{position_encode}?px=default&city={city_encode}&district={district_encode}这样的url还是会说操作太频繁,而不带这个cookie却能获取到十页左右的信息再让登录,请问这是怎么回事

正在回答 回答被采纳积分+3

1回答

bobby 2019-08-06 14:20:04

其实还是很简单的,首先拉钩可以通过ip去限制你的访问频率 比如同一个ip访问过快 很容易就初步判定你为爬虫 这个时候就让你登录,但是你登录了以后就更加容易用来做判断了,比如可以通过账号或者ip同时去判断爬虫。所以最重要的是控制访问频率和速度,不要访问的太频繁了,或者不登录使用ip代理访问。但是拉钩已经将很多ip地址加入到疑似爬虫的池中了,所以最重要的还是注意控制访问速度,如果还是觉得麻烦可以考虑使用selenium访问

0 回复 有任何疑惑可以回复我~
  • 提问者 慕粉1468990971 #1
    谢谢老师,关于这个其实我还有个问题想请教下,因为我目前正打算做一个爬虫用于爬取拉钩上全国所有热门城市的一些职位的信息存到数据库中,比如python、java之类的,我目前是拿着登录后的cookie以同一个ip去获取数据,大概2秒获取一次详细职位信息,10秒获取一页数据获取到cookie并向那个对应的post接口发起请求,这样算下来一天大概发3万次请求,这是不是太频繁了啊?或者请问拉勾网的话,访问频率最好是多少?谢谢
    回复 有任何疑惑可以回复我~ 2019-08-06 18:15:17
  • bobby 回复 提问者 慕粉1468990971 #2
    当然频繁了啊 哪有人工一天能访问3万次的,而且没10秒获取一次 这么规律的请求也不符合正常人的访问 一遍限制爬虫都会设置一个ip一天能访问的上限
    回复 有任何疑惑可以回复我~ 2019-08-08 14:48:47
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信