请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

爬取西刺500错误

https://img1.sycdn.imooc.com/szimg//599406860001f2d608220327.jpg

代码就这么点,爬取报503,

我想问的问题是,当不知是哪里出了问题的时候,应该怎么一步步判断出是哪部分出了问题

正在回答

2回答

因为这里代码过短 而且是和服务器交互的, 这种判断出错你是判断不了的, 因为这个错误是服务器返回的, 你可以把headers里面的user-agent换一个再试试看看, 或者你把代码贴上来 我在本地运行看看

0 回复 有任何疑惑可以回复我~
  • 提问者 qq_秀逗_0 #1
    非常感谢!
    回复 有任何疑惑可以回复我~ 2017-08-18 15:13:40
提问者 qq_秀逗_0 2017-08-17 13:06:23
headers = {
    'User_Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:55.0) Gecko/20100101 Firefox/55.0',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Connection': 'keep-alive',
    'Host': 'www.xicidaili.com',
    'Upgrade-Insecure-Requests': '1',
    'If-None-Match': 'W/"32b598d5a14e850ba4d4050f86a3d405"',
    'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',
    'Accept-Encoding': 'gzip, deflate',
}


def crawl_ips():
    url = 'http://www.xicidaili.com/nn/'
    response = requests.get(url=url, headers=headers)
    print(response.text)
    
crawl_ips()


0 回复 有任何疑惑可以回复我~
  • bobby #1
    我这里也遇到了这个问题 确实是返回了503 应该是做了反爬虫了 你可以先用selenium去爬取 这个内容我在后面有讲解 我这边解决这个需要花点时间
    回复 有任何疑惑可以回复我~ 2017-08-18 14:25:30
  • 我爬这个页面的时候没啥问题,你Header不要塞太多了
        url='http://www.xicidaili.com/nn/'+str(page_index)
        headers = {
            'User-Agent': random.choice(user_agent_list)}
    回复 有任何疑惑可以回复我~ 2017-08-20 12:29:55
问题已解决,确定采纳
还有疑问,暂不采纳
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号