请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

爬取网站禁用aws ec2的ip

老师,同学好, 向大家请教一个问题。 我写了一个爬虫,爬取carfax的数据,在本地测试,爬了30多万条数据,爬虫本身的代码应该没有问题。 我将爬虫部署到aws 的ec2上后就用不了了,返回403。 发现问题是carfax把所有从ec2出来的IP都禁了。 请问出了用代理池外,还有别的解决办法吗? 

正在回答 回答被采纳积分+3

3回答

bobby 2017-12-01 10:42:36

还有tor 洋葱网络 但是那个需要你有vpn才行 课程中提到过 你可以百度一下tor

0 回复 有任何疑惑可以回复我~
  • 提问者 慕雪0267781 #1
    谢谢老师。 我后来用高匿代理IP试了一下,还是不行,还是返回403。这个让我很困惑,按理说,我用了代理以后,请求carfax.com的应该是代理服务器的IP才对啊。
    回复 有任何疑惑可以回复我~ 2017-12-03 04:30:28
提问者 慕雪0267781 2017-11-30 08:19:12

aaa

0 回复 有任何疑惑可以回复我~
提问者 慕雪0267781 2017-11-30 07:52:58

我后面又试了一下,代理也不行,真是太困惑了:

1,在ec2上,直接用requests库,能够用get请求拿到其他网站的数据。 这说明ec2的配置没有问题。

2,在requestes库的get请求中加上高匿代理后,访问carfax仍然是403. 这让我非常困惑。

3,应该不是cookie的问题,因为carfax不需要登录。 而且本地爬的时候,cookie是禁用了的。 

同样的代码,我在本地也试了,本地能够正常的拿到数据。 

0 回复 有任何疑惑可以回复我~
问题已解决,确定采纳
还有疑问,暂不采纳
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号