session.get()会话能否加上代理ip和随机ua-慕课网

1回答

bobby 2017-07-17 09:18:45

import requests
proxies = {'http': ' 
s = requests.session()
s.proxies.update(proxies)
s.get("http://www.example.com")

可以的你看看这个代码，你可以先试试这个requests 如果还是不行可以试试用其他的driver 比如chrome或者phantomjs 以及可以参考一下其他测试的语言直接操作本地浏览器而不是driver，我之前接触过autoit 还不错你可以考虑一下

0 回复有任何疑惑可以回复我~

收起回答

提问者慕先生0421411 #1

老师好，我已用selenium启动chrome加上随机ip和随机useragent然后把selenium的cookie值get出来付给requests去访问，以为能成功破解阿里巴巴的反爬。结果爬1000条多数据后被识别要求登录。发现如下问题：1·如果selenium不加随机ip和ua，爬不到100条数据就被识别，后经加上ip和ua给selenium可以爬上1000条，说明是有效的添加上ip和ua。2·爬了1000多条数据对selenium的模拟浏览器要求登录访问数据，然后我用本地浏览器清空缓存cookie再访问阿里巴巴依然是被封了要求登录，说明阿里巴巴是封了我的本地ip，问题是我的爬虫程序中所有的请求都是用了代理ip的，从没有用本地ip访问的。阿里巴巴是怎么样封了我的本地ip？请求老师帮组！

回复有任何疑惑可以回复我~ 2017-07-17 23:45:26

bobby 回复提问者慕先生0421411 #2

爬虫的反爬策略非常多 不一定只有通过cookie 和ip或者通过ua来判断你是否爬虫， 还有很多机器学习的方法，比如通过你的请求是否只请求html 不请求js css等， 所以你需要不停的去尝试， 阿里巴巴这种网站的反爬肯定是非常高的， 你需要找到那个临界值比如请求频率等， 还有你可以尝试一下收费的爬虫部署 看看那些收费服务能否解决这种问题， 我这里最近也发现了一款开源的 https://github.com/easychen/catgate 用于真实浏览器的爬取 你可以看看， 这个项目我还没有来得及看 你可以先试试

回复有任何疑惑可以回复我~ 2017-07-18 09:14:22

session.get()会话能否加上代理ip和随机ua

正在回答回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

热搜

最近搜索清空