采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
代码就这么点,爬取报503,
我想问的问题是,当不知是哪里出了问题的时候,应该怎么一步步判断出是哪部分出了问题
因为这里代码过短 而且是和服务器交互的, 这种判断出错你是判断不了的, 因为这个错误是服务器返回的, 你可以把headers里面的user-agent换一个再试试看看, 或者你把代码贴上来 我在本地运行看看
非常感谢!
headers = { 'User_Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:55.0) Gecko/20100101 Firefox/55.0', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Connection': 'keep-alive', 'Host': 'www.xicidaili.com', 'Upgrade-Insecure-Requests': '1', 'If-None-Match': 'W/"32b598d5a14e850ba4d4050f86a3d405"', 'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3', 'Accept-Encoding': 'gzip, deflate', } def crawl_ips(): url = 'http://www.xicidaili.com/nn/' response = requests.get(url=url, headers=headers) print(response.text) crawl_ips()
我这里也遇到了这个问题 确实是返回了503 应该是做了反爬虫了 你可以先用selenium去爬取 这个内容我在后面有讲解 我这边解决这个需要花点时间
我爬这个页面的时候没啥问题,你Header不要塞太多了 url='http://www.xicidaili.com/nn/'+str(page_index) headers = { 'User-Agent': random.choice(user_agent_list)}
登录后可查看更多问答,登录/注册
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
5.5k 30
2.9k 18
1.6k 18
1.8k 15
3.4k 15
购课补贴联系客服咨询优惠详情
慕课网APP您的移动学习伙伴
扫描二维码关注慕课网微信公众号