请稍等 ...

爬取网站直接503，怎么办？

老师，我遇到一个网站，把start_urls输进去，就直接503

DEBUG: Retrying <GET http://www.cehui8.com> (failed 1 times): 503 Service Unavailable

RandomUserAgent也设置了，还设置了一堆这种属性

"AUTOTHROTTLE_ENABLED": True,
"AUTOTHROTTLE_START_DELAY": 5,
"AUTOTHROTTLE_MAX_DELAY": 60,
"CONCURRENT_REQUESTS_PER_DOMAIN": 1,
"ONCURRENT_REQUESTS": 1

还是不行。。怎么办？

这个网站用正常的浏览器打开，也会出现一个页面显示“浏览器安全检查中”，之后才会跳转到要访问的页面

用scrapy shell随便访问网站下的一个页面，也是503。

您帮我试试？多谢

天真男 2017-08-08 19:03:35

源自：9-1 selenium动态网页请求与模拟登录知乎

3088

收起

提交取消

1回答

提问者天真男 2017-08-08 23:43:18

折腾了一晚上，这个站的ip被百度云加速保护的，输入网址后，会先定向到一个

http://www.cehui8.com/cdn-cgi/l/chk_jschl?jschl_vc=.....&pass=....&jschl_anwser=...这样一个网站

然后5秒后跳转到你要去的网站，要先通过503的页面取得jschl_vc和pass, 然后去研究页面上一段js去计算jschl_anwser，然后拼出这个地址，之后怎么样还不清楚。。。

老师有更好的办法吗？？

还没试过selenium行不行。

0 回复有任何疑惑可以回复我~

收起回答

bobby #1

这种方案 只有先去分析这种逻辑才行， 当然用selenium没有问题， 不过也要看是否被百度云被保护着？

回复有任何疑惑可以回复我~ 2017-08-09 09:46:10

相似问题

基于CrawlSpider，同一份代码爬取多个网站的数据，如果限制不爬取外链网站数据

两个或两个以上的网站爬取算是分布式爬虫吗？我这样写可以启动无数个爬虫程序吧？为啥启动完第一个就直接结束了呢？

珍爱网改动了，不能用原来的办法爬了

请问可以爬取其他网站吗

提取网页元素

登录后可查看更多问答，登录/注册

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

参与学习 5831 人
解答问题 6293 个

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

了解课程

本课精华内容

问答作业

Missing argument grant_type

5.6k 30

MysqlTwistedPipline的对象没有cursor属性

3.0k 18

知乎answer提取不到

1.7k 18

为什么知乎数据导入不到MySQL数据库中？

1.9k 15

运行 scrapy crawl jobbole 报错

3.5k 15

查看更多本课问答

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

爬取网站直接503，怎么办？

正在回答回答被采纳积分+3

1回答

相似问题