爬取西刺500错误-慕课网

2回答

bobby 回答被采纳获得+3积分 2017-08-17 09:44:17

因为这里代码过短而且是和服务器交互的，这种判断出错你是判断不了的，因为这个错误是服务器返回的，你可以把headers里面的user-agent换一个再试试看看，或者你把代码贴上来我在本地运行看看

0 回复有任何疑惑可以回复我~

收起回答

提问者 qq_秀逗_0 #1
```
非常感谢！
```
回复有任何疑惑可以回复我~ 2017-08-18 15:13:40

提问者 qq_秀逗_0 2017-08-17 13:06:23

headers = {
    'User_Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:55.0) Gecko/20100101 Firefox/55.0',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Connection': 'keep-alive',
    'Host': 'www.xicidaili.com',
    'Upgrade-Insecure-Requests': '1',
    'If-None-Match': 'W/"32b598d5a14e850ba4d4050f86a3d405"',
    'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',
    'Accept-Encoding': 'gzip, deflate',
}


def crawl_ips():
    url = 'http://www.xicidaili.com/nn/'
    response = requests.get(url=url, headers=headers)
    print(response.text)
    
crawl_ips()

0 回复有任何疑惑可以回复我~

收起回答

bobby #1

我这里也遇到了这个问题 确实是返回了503 应该是做了反爬虫了 你可以先用selenium去爬取 这个内容我在后面有讲解 我这边解决这个需要花点时间

回复有任何疑惑可以回复我~ 2017-08-18 14:25:30

卡卡奇 #2

我爬这个页面的时候没啥问题，你Header不要塞太多了
    url='http://www.xicidaili.com/nn/'+str(page_index)
    headers = {
        'User-Agent': random.choice(user_agent_list)}

回复有任何疑惑可以回复我~ 2017-08-20 12:29:55

爬取西刺500错误

正在回答

2回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

热搜

最近搜索清空