解决反爬问题-慕课网

2回答

bobby 2019-09-12 17:18:47

cnblogs对列表页的数据做了权限控制，可以使用浏览器访问一下，前几页的数据不用登录就能访问，但是后面的页码，比如8页之后的数据即使用浏览器也需要登录之后才能访问，所以cnblogs应该是通过ip做了限制，比如多长距今多长时间以前的url只有登录才能访问

0 回复有任何疑惑可以回复我~

收起回答

bobby 2019-09-09 11:35:02

你的ip是否每次请求都是随机切换的？
有没有在settings中设置cookie_enabled为false？如果没有的话那么后续每个请求的cookie都可能会是一样。只要cookie是一样的，即使你的ip是变动的，网站也能通过cookie取出你是哪个用户
50个ip其实也不算多，一般网站除了通过cookie反爬以外。通过ip的频率限制也是一个非常常用的手段。比如网站通过每分钟每个ip不超过十个访问，这种配置方式非常灵活。至于什么规律需要自己去尝试，每个网站都不一样，所以不论如何最好都要控制你的爬取频率而不是一味的不限速

0 回复有任何疑惑可以回复我~

收起回答

提问者 DreamHacker #1

ip设置为了500个，如果说是通过每分钟每个ip的访问来判断，我觉得scrapy全速爬取每分钟5000左右的请求应该达不到。
然后听了老师建议把在settings文件中改了配置
cookie_enabled = false
还是存在同样的问题。倒不是说爬取多少数据的问题，我就比较好奇网站后台是如何识别出我的所有ip然后定向到一个输入账号密码的网站导致我爬取失败的。
老师你不是说要出这个网站的视频吗，你爬取的时候没有这样的问题吗。伯乐在线，单ip单useragent都能全速爬，这网站可不行。

回复有任何疑惑可以回复我~ 2019-09-09 14:32:09

bobby 回复提问者 DreamHacker #2
```
你留下qq 我加你看看
```
回复有任何疑惑可以回复我~ 2019-09-10 11:45:15
提问者 DreamHacker 回复 bobby #3
```
861529752
```
回复有任何疑惑可以回复我~ 2019-09-11 11:42:11

解决反爬问题

正在回答

2回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

热搜

最近搜索清空