请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

爬取网站直接503,怎么办?

老师,我遇到一个网站,把start_urls输进去,就直接503

DEBUG: Retrying <GET http://www.cehui8.com> (failed 1 times): 503 Service Unavailable

RandomUserAgent也设置了,还设置了一堆这种属性

"AUTOTHROTTLE_ENABLED": True,
"AUTOTHROTTLE_START_DELAY": 5,
"AUTOTHROTTLE_MAX_DELAY": 60,
"CONCURRENT_REQUESTS_PER_DOMAIN": 1,
"ONCURRENT_REQUESTS": 1

还是不行。。怎么办?

这个网站用正常的浏览器打开,也会出现一个页面显示“浏览器安全检查中”,之后才会跳转到要访问的页面

用scrapy shell随便访问网站下的一个页面,也是503。

您帮我试试?多谢

正在回答 回答被采纳积分+3

1回答

提问者 天真男 2017-08-08 23:43:18

折腾了一晚上,这个站的ip被百度云加速保护的,输入网址后,会先定向到一个

http://www.cehui8.com/cdn-cgi/l/chk_jschl?jschl_vc=.....&pass=....&jschl_anwser=...这样一个网站

然后5秒后跳转到你要去的网站,要先通过503的页面取得jschl_vc和pass, 然后去研究页面上一段js去计算jschl_anwser,然后拼出这个地址,之后怎么样还不清楚。。。

老师有更好的办法吗??

还没试过selenium行不行。

0 回复 有任何疑惑可以回复我~
  • bobby #1
    这种方案 只有先去分析这种逻辑才行, 当然用selenium没有问题, 不过也要看是否被百度云被保护着?
    回复 有任何疑惑可以回复我~ 2017-08-09 09:46:10
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信