如何避过验证码post过多限制的反爬-慕课网

2回答

bobby 2017-07-12 10:51:10

阿里的反爬应该算是国内最严格的网站之一了，但是做过后端开发的话就能明白，服务器判断你无非也就是那几种方式，通过ip限制，通过cookie限制，

这里阿里需要登录就是通过cookie限制，也就是通过账号限制，我看到你这里实际上用了多个账号的cookie来爬取了，这里就有一个问题就是如果账号不多，即使随机切换也有可能对每个账号来说还是请求频繁了，而且阿里也极有可能会通过一个ip地址是否不停的有多个cookie发送过来，所以你可以再申请多个账号和随机切换ip代理的方式结合来爬取，而且也需要限速爬取，不要爬取的过于频繁，因为如果阿里一旦后台的逻辑是讲cookie和ip绑定来判断你随机切换ip的方式就无效了，限速才是良性的爬虫，不要过度的追求爬虫速度，对于某一个网站来说有个好的节奏去爬取才是长期爬虫的关键

1 回复有任何疑惑可以回复我~

收起回答

提问者慕先生0421411 #1

限速就有一个问题了，cookies是有时间限制的，限速太慢了爬不到多少数据，cookie就变成失效。

回复有任何疑惑可以回复我~ 2017-07-12 12:20:38

wzqnls 回复提问者慕先生0421411 #2

过期后可以重新获取cookie，然后替换掉原有cookie。这个肯定不是问题的关键

回复有任何疑惑可以回复我~ 2017-07-13 09:37:05

提问者慕先生0421411 回复 wzqnls #3

自动更新cookie，这样子就集成selenium到scrapy中了，每次都有启动selenium，然后把selenium的get_cookies()把cookie拿出来。再组装好付给requests请求。

回复有任何疑惑可以回复我~ 2017-07-13 18:05:02

点开查看后面1条评论

提问者慕先生0421411 2017-07-12 17:31:26

这就是阿里巴巴的post验证码限制，ua加密的

0 回复有任何疑惑可以回复我~

收起回答

如何避过验证码post过多限制的反爬

正在回答回答被采纳积分+3

2回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

热搜

最近搜索清空