请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

scrapy shell添加了useragent参数 返回状态码是200 但是页面显示404

scrapy shell在添加了useragent后 虽然返回的response状态码是200 但是view(response)打开返回的response发现返回的页面写着404
我使用的语句:

scrapy shell  -s USER_AGENT="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36" https://www.zhihu.com/question/339753020

图片描述

正在回答

2回答

我拷贝了你上面的代码 看到的是这样的? https://img1.sycdn.imooc.com//szimg/5e43d713098b42c315860627.jpg 你要在cmd中运行,不要保存到html中然后去查看html文件

0 回复 有任何疑惑可以回复我~
  • 提问者 橘子煲汤 #1
    所以老师我的疑惑就在这里了 为什么保存下来的html里的内容和打开html的内容会不同呢?
    回复 有任何疑惑可以回复我~ 2020-02-13 20:31:14
  • bobby 回复 提问者 橘子煲汤 #2
    知乎了反爬,在里面加入了js逻辑 就是防止你保存下来html分析
    回复 有任何疑惑可以回复我~ 2020-02-15 15:01:54
bobby 2020-02-11 19:41:06

这个页面内容是404  不一定代表http状态码一定要是404, 也就是说我也可以开发一个页面是这个内容,但是状态码是200, 你可以通过网络请求看看这个页面的状态码是多少

0 回复 有任何疑惑可以回复我~
  • 提问者 橘子煲汤 #1
    但是老师 这个页面他是有内容的呀 并不是开发的页面显示的就是这个内容  https://www.zhihu.com/question/339753020 这个页面打开是一个正常的有内容的问答页 但是爬取后调用view(response)的就变成了404
    回复 有任何疑惑可以回复我~ 2020-02-12 15:48:21
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信