根据limit=5&offset=5去爬取回答，发现每个这样的url都是只爬取到了data中的第一个回答，接下来的4个回答都没有爬取到，这是什么原因？-慕课网

def parse_answer(self, response): answer_item_loader = ZhihuItemLoader(item=ZhihuAnswerItem(), response=response) answer_dict = json.loads(response.text) is_end = answer_dict['paging']['is_end'] next_answer_url = answer_dict['paging']['next'] for answer in answer_dict['data']: create_time = answer['created_time'] update_time = answer['updated_time'] answer_id = answer['id'] praise_nums = answer['voteup_count'] answer_url = answer['url'] author_id = answer['author']['id'] if 'id' in answer['author'] else '' question_id = answer['question']['id'] question_create_time = answer['question']['created'] question_update_time = answer['question']['updated_time'] content = answer['content'] if 'content' in answer['content'] else answer['excerpt'] comment_nums = answer['comment_count'] crawl_time = datetime.now() answer_item_loader.add_value('answer_id', answer_id) answer_item_loader.add_value('question_id', question_id) answer_item_loader.add_value('answer_url', answer_url) answer_item_loader.add_value('author_id', author_id) answer_item_loader.add_value('content', content) answer_item_loader.add_value('praise_nums', praise_nums) answer_item_loader.add_value('comment_nums', comment_nums) answer_item_loader.add_value('create_time', create_time) answer_item_loader.add_value('update_time', update_time) answer_item_loader.add_value('crawl_time', crawl_time) answer_item = answer_item_loader.load_item() yield answer_item if is_end == False: yield scrapy.Request(next_answer_url, callback=self.parse_answer)

1回答

bobby 2018-06-12 10:04:08

是返回的数据里面只有一条数据？还是你只能从返回的数据中获取到第一条数据？

0 回复有任何疑惑可以回复我~

收起回答

提问者 Yan雪杉 #1

只测试了一个问题，这个问题有3736个答案，现在知乎每页是存了5个答案，就相当于与748页，我只爬到了748个答案，就是每页中的第一个。。。后面4个都没有爬取到，我看爬取记录是每页都爬取了5次，但好像爬取的都是第一条记录，因为后面4条记录全部提示关键字冲突

回复有任何疑惑可以回复我~ 2018-06-12 10:25:01

bobby 回复提问者 Yan雪杉 #2

那其实问题已经比较明确了 实际上采集是返回了数据，但是因为每一页都都是主键冲突造成了 只有一个数据入库，所以你需要确定一下是哪个主键冲突了，然后看看是不是这一页的所有数据都是想同的主键

回复有任何疑惑可以回复我~ 2018-06-14 10:38:02

根据limit=5&offset=5去爬取回答，发现每个这样的url都是只爬取到了data中的第一个回答，接下来的4个回答都没有爬取到，这是什么原因？

正在回答回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

热搜

最近搜索清空