采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
老师,同学好, 向大家请教一个问题。 我写了一个爬虫,爬取carfax的数据,在本地测试,爬了30多万条数据,爬虫本身的代码应该没有问题。 我将爬虫部署到aws 的ec2上后就用不了了,返回403。 发现问题是carfax把所有从ec2出来的IP都禁了。 请问出了用代理池外,还有别的解决办法吗?
还有tor 洋葱网络 但是那个需要你有vpn才行 课程中提到过 你可以百度一下tor
谢谢老师。 我后来用高匿代理IP试了一下,还是不行,还是返回403。这个让我很困惑,按理说,我用了代理以后,请求carfax.com的应该是代理服务器的IP才对啊。
aaa
我后面又试了一下,代理也不行,真是太困惑了:
1,在ec2上,直接用requests库,能够用get请求拿到其他网站的数据。 这说明ec2的配置没有问题。
2,在requestes库的get请求中加上高匿代理后,访问carfax仍然是403. 这让我非常困惑。
3,应该不是cookie的问题,因为carfax不需要登录。 而且本地爬的时候,cookie是禁用了的。
同样的代码,我在本地也试了,本地能够正常的拿到数据。
登录后可查看更多问答,登录/注册
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
5.3k 30
2.9k 18
1.5k 18
1.8k 15
3.4k 15
购课补贴联系客服咨询优惠详情
慕课网APP您的移动学习伙伴
扫描二维码关注慕课网微信公众号