使用IP代理反而爬取不了数据的问题-慕课网

import requests url = "https://www.zhipin.com/job_detail/846aab1aa2dbcd491nRy3dm_F1dR.html" # 这里是直接【F12】从浏览器复制粘贴的cookie headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36', 'cookie':'（太长了，删去）'} res = requests.get(url=url,headers=headers) print(res.status_code) print(res.text)

import requests # 目标页面（知乎热榜） targetUrl = "https://www.zhihu.com/hot" # 代理服务器 proxyHost = "http-dyn.abuyun.com" proxyPort = "9020" # 代理隧道验证信息(通行证书和通行密钥) proxyUser = "H4D601377P1V052D" proxyPass = "93A1F9B59F94D644" proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % { "host" : proxyHost, "port" : proxyPort, "user" : proxyUser, "pass" : proxyPass, } proxies = { "http" : proxyMeta, "https" : proxyMeta, } # 同样，直接【F12】复制cookie headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36', 'cookie':'（太长，略去）'} resp = requests.get(url=targetUrl,headers=headers,proxies=proxies) print(resp.status_code) print(resp.text)

import requests # 目标页面 url = "https://www.zhipin.com/job_detail/846aab1aa2dbcd491nRy3dm_F1dR.html" # 代理服务器 proxyHost = "http-dyn.abuyun.com" proxyPort = "9020" # 代理隧道验证信息 proxyUser = "H4D601377P1V052D" proxyPass = "93A1F9B59F94D644" proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % { "host" : proxyHost, "port" : proxyPort, "user" : proxyUser, "pass" : proxyPass, } proxies = { "http" : proxyMeta, "https" : proxyMeta, } # 同样，直接【F12】复制cookie headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36', 'cookie':'(略)'} resp = requests.get(url=targetUrl,headers=headers,proxies=proxies,verify=False) print(resp.status_code) print(resp.text)

2回答

bobby 2021-07-16 18:34:10

试过了，boss直聘采取了动态cookie，也就是cookie用过一段时间会失效，所以boss直聘采取的策略是：

1. 必须获取到cookie才能访问，这个可以通过selenim去获取，也可以通过逆向去分析（成本较大）

2. 将cookie和ip绑定。这样即使你拿到cookie想去切换ip也不行。这种情况你需要买阿布云的固定ip，而不是每次请求都不一样的ip

所以综合起来就是：

1. 通过阿布云去购买固定的ip

2. 让后通过selenium加上这个固定的ip代理去获取可用的cookie

3. 然后将这个可用的cookie+requests+刚才selenium请求的ip 去模拟获取

4. 这种cookie失效也比较快。所以需要你频繁的去使用selenium分析出cookie

5. 为了方便你可以逆向cookie的生成规则，不过这种方法很容易失效，好像boss直聘改这种规则还挺频繁的

爬虫不易，加油

0 回复有任何疑惑可以回复我~

收起回答

提问者慕粉3883702 #1
```
谢谢老师，我终于有思路了
```
回复有任何疑惑可以回复我~ 2021-07-18 14:50:36

bobby 2021-07-12 11:20:40

这个问题有点意思，你把你的不使用代理的源码和使用阿布云的代理的源码都贴一下，我在本地测试运行试试

0 回复有任何疑惑可以回复我~

收起回答

提问者慕粉3883702 #1

好的，老师。

scrapy的代码太多太乱了，我就用requests写了，结果都是一样的。代码贴在原帖的下面，我重新编辑了，
麻烦老师了。

回复有任何疑惑可以回复我~ 2021-07-16 10:06:02

使用IP代理反而爬取不了数据的问题

正在回答回答被采纳积分+3

2回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

热搜

最近搜索清空