采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
请问老师:我现在要爬淘宝商品的月销量字段,这个字段是在js文件中。如果用同一个ip访问过快过多,淘宝就会把月销量的js屏蔽不给访问,要求登录后才能访问到这个js文件。我解决的办法就是老师课程所讲的购买第三方付费动态ip,写入代理ip随机中间件中,并且在setting文件启动了这个ip中间件,但是加了i代理p访问淘宝时还是用本地ip。请问老师这个老师怎么解决?
你怎么确定 使用的还是本地ip的? 你贴图看一下你设置ip的逻辑看看呢
在没有代理ip的情况去爬淘宝的月销量字段(是淘宝版,现在的天猫没有做反爬)取了20多条数据后就被识别为爬虫,不给月销量js访问。于是买第三方付费IP爬,经过多次debug后发现,ip中间件没有问题是用代理ip的,但是加代理ip依然被淘宝识别为爬虫,把月销量的js屏蔽不给访问,要求登录后才能访问到这个js文件。随机ip,随机ua,随机referer,限速为10秒访问一次,这些办法都用了。请问老师这个老师怎么解决爬淘宝?
我没有爬取过淘宝 你用chromedriver爬取一下看看呢 有可能淘宝是通过你是否只请求html不请求css等文件来判定你为爬虫的 你先试试 如果还是有问题 你就加我的qq 我给你看看
用scrapy+chrome也不行爬淘宝。我用selenium用两个爬虫, 第一个爬虫,我解析出我爬取商品的每个商品id,然后构造商品详情url用selenium进行渲染,结果是可以渲染到月销量字段,但是selenium访问过多,淘宝就把月销量的js屏蔽不给访问,要求登录后才能访问到这个js文件。第两个爬虫是用selenium进入淘宝,selenium定位查询框输入我要爬的商品,然后再用selenium定位每个商品的详情页进入渲染。结果是成功进入商品详情页,但月销量字段无法渲染到html页面。
登录后可查看更多问答,登录/注册
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
5.3k 30
2.9k 18
1.5k 18
1.8k 15
3.4k 15
购课补贴联系客服咨询优惠详情
慕课网APP您的移动学习伙伴
扫描二维码关注慕课网微信公众号