请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

写了代理ip中间件,但是访问爬取网站时还是本地ip。

请问老师:我现在要爬淘宝商品的月销量字段,这个字段是在js文件中。如果用同一个ip访问过快过多,淘宝就会把月销量的js屏蔽不给访问,要求登录后才能访问到这个js文件。我解决的办法就是老师课程所讲的购买第三方付费动态ip,写入代理ip随机中间件中,并且在setting文件启动了这个ip中间件,但是加了i代理p访问淘宝时还是用本地ip。请问老师这个老师怎么解决?

正在回答 回答被采纳积分+3

1回答

bobby 2017-07-03 12:01:48

你怎么确定 使用的还是本地ip的? 你贴图看一下你设置ip的逻辑看看呢

0 回复 有任何疑惑可以回复我~
  • 提问者 慕先生0421411 #1
    在没有代理ip的情况去爬淘宝的月销量字段(是淘宝版,现在的天猫没有做反爬)取了20多条数据后就被识别为爬虫,不给月销量js访问。于是买第三方付费IP爬,经过多次debug后发现,ip中间件没有问题是用代理ip的,但是加代理ip依然被淘宝识别为爬虫,把月销量的js屏蔽不给访问,要求登录后才能访问到这个js文件。随机ip,随机ua,随机referer,限速为10秒访问一次,这些办法都用了。请问老师这个老师怎么解决爬淘宝?
    回复 有任何疑惑可以回复我~ 2017-07-04 16:52:53
  • bobby 回复 提问者 慕先生0421411 #2
    我没有爬取过淘宝 你用chromedriver爬取一下看看呢 有可能淘宝是通过你是否只请求html不请求css等文件来判定你为爬虫的 你先试试 如果还是有问题 你就加我的qq 我给你看看
    回复 有任何疑惑可以回复我~ 2017-07-05 09:56:41
  • 提问者 慕先生0421411 回复 bobby #3
    用scrapy+chrome也不行爬淘宝。我用selenium用两个爬虫,
    第一个爬虫,我解析出我爬取商品的每个商品id,然后构造商品详情url用selenium进行渲染,结果是可以渲染到月销量字段,但是selenium访问过多,淘宝就把月销量的js屏蔽不给访问,要求登录后才能访问到这个js文件。第两个爬虫是用selenium进入淘宝,selenium定位查询框输入我要爬的商品,然后再用selenium定位每个商品的详情页进入渲染。结果是成功进入商品详情页,但月销量字段无法渲染到html页面。
    回复 有任何疑惑可以回复我~ 2017-07-05 19:45:24
问题已解决,确定采纳
还有疑问,暂不采纳
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号