采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
爬取知乎的回答数据的时候,爬取到1545条的数据,爬虫自动停止,并没有报任何错误,状态码200 但是我没有使用IP代理和随机的User_Agent.和这个有关系吗???
数据数据出现了循环也有可能会造成这个结果, 可以分析一下看看每次页面提取出来以后将在redis中统计一次看看总共解析出来多少条记录
你所说的数据循环,是不是同一个url进行了多次的爬取,导致数据重复???
不是,数据循环是 a页面解析出来了b和c,页面,b页面解析出来了d页面,但是d页面只能解析出来a页面,就导致了没有新的数据,数据出现了循环
登录后可查看更多问答,登录/注册
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
4.8k 30
2.5k 18
1.1k 18
1.4k 15
2.8k 15