请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

知乎爬取answer

爬取知乎的回答数据的时候,爬取到1545条的数据,爬虫自动停止,并没有报任何错误,状态码200
但是我没有使用IP代理和随机的User_Agent.和这个有关系吗???

正在回答 回答被采纳积分+3

1回答

bobby 2020-11-20 12:31:48

数据数据出现了循环也有可能会造成这个结果, 可以分析一下看看每次页面提取出来以后将在redis中统计一次看看总共解析出来多少条记录

0 回复 有任何疑惑可以回复我~
  • 提问者 JaydenJune #1
    你所说的数据循环,是不是同一个url进行了多次的爬取,导致数据重复???
    回复 有任何疑惑可以回复我~ 2020-11-20 13:55:58
  • bobby 回复 提问者 JaydenJune #2
    不是,数据循环是 a页面解析出来了b和c,页面,b页面解析出来了d页面,但是d页面只能解析出来a页面,就导致了没有新的数据,数据出现了循环
    回复 有任何疑惑可以回复我~ 2020-11-22 10:18:24
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信