写了代理ip中间件，但是访问爬取网站时还是本地ip。-慕课网

1回答

bobby 2017-07-03 12:01:48

你怎么确定使用的还是本地ip的？你贴图看一下你设置ip的逻辑看看呢

0 回复有任何疑惑可以回复我~

提问者慕先生0421411 #1

在没有代理ip的情况去爬淘宝的月销量字段（是淘宝版，现在的天猫没有做反爬）取了20多条数据后就被识别为爬虫，不给月销量js访问。于是买第三方付费IP爬，经过多次debug后发现，ip中间件没有问题是用代理ip的，但是加代理ip依然被淘宝识别为爬虫，把月销量的js屏蔽不给访问，要求登录后才能访问到这个js文件。随机ip，随机ua，随机referer，限速为10秒访问一次，这些办法都用了。请问老师这个老师怎么解决爬淘宝？

回复有任何疑惑可以回复我~ 2017-07-04 16:52:53

bobby 回复提问者慕先生0421411 #2

我没有爬取过淘宝 你用chromedriver爬取一下看看呢 有可能淘宝是通过你是否只请求html不请求css等文件来判定你为爬虫的 你先试试 如果还是有问题 你就加我的qq 我给你看看

回复有任何疑惑可以回复我~ 2017-07-05 09:56:41

提问者慕先生0421411 回复 bobby #3

用scrapy+chrome也不行爬淘宝。我用selenium用两个爬虫，
第一个爬虫，我解析出我爬取商品的每个商品id，然后构造商品详情url用selenium进行渲染，结果是可以渲染到月销量字段，但是selenium访问过多，淘宝就把月销量的js屏蔽不给访问，要求登录后才能访问到这个js文件。第两个爬虫是用selenium进入淘宝，selenium定位查询框输入我要爬的商品，然后再用selenium定位每个商品的详情页进入渲染。结果是成功进入商品详情页，但月销量字段无法渲染到html页面。

回复有任何疑惑可以回复我~ 2017-07-05 19:45:24

点开查看后面4条评论

写了代理ip中间件，但是访问爬取网站时还是本地ip。

正在回答回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

热搜

最近搜索清空