课程6-4 调试拉钩网爬取url，response为302重定向为登录页面，没有进入调用callback函数parse

1回答

bobby 2017-08-28 09:58:36

亲这是被怀疑为爬虫然后重定向你去登录了就不会进入parse_detail了你可以适当限制一下爬虫速度

0 回复有任何疑惑可以回复我~

SingleVergil #1

整个怎么限制啊！sleep() 中间嗯哼？我还没看到后面  一步步跟着来 发现好多坑哈哈！

回复有任何疑惑可以回复我~ 2017-09-10 18:57:52

bobby 回复 SingleVergil #2

亲 课程的逻辑是先将每个网站的各个页面内容爬取下面 这个时候要少量的爬取， 不要做好一个网站就不节制大规模爬取， 然后在进阶章节再有防止被反爬虫禁止 所以你在知道如何爬取某个网站之后 不要着急去大规模爬取 等到课程学完以后再去大规模爬取会合理些

回复有任何疑惑可以回复我~ 2017-09-11 13:12:55

SingleVergil 回复 bobby #3

主要是 有点时候入库还是正确的，运行一会就报错了  我就怕是我自己的逻辑出现问题，还是是说一些网站已经不像是你当初录视频的时候那个 反爬策略了  嗯嗯   我是怕是我的逻辑出问题了 呵呵

回复有任何疑惑可以回复我~ 2017-09-11 17:09:58

课程6-4 调试拉钩网爬取url，response为302重定向为登录页面，没有进入调用callback函数parse_item，提取不到后续url