博客园只爬取每页第一条-慕课网

#收集博客园所有404的url以及404页面数 handle_httpstatus_list = [404] def __init__(self, **kwargs): self.fail_urls = [] dispatcher.connect(self.handle_spider_closed, signals.spider_closed) def handle_spider_closed(self, spider, reason): self.crawler.stats.set_value("failed_urls", ",".join(self.fail_urls)) def parse(self, response): """ 1. 获取文章列表页中的文章url并交给scrapy下载后并进行解析 2. 获取下一页的url并交给scrapy进行下载，下载完成后交给parse """ #解析列表页中的所有文章url并交给scrapy下载后并进行解析 if response.status == 404: self.fail_urls.append(response.url) self.crawler.stats.inc_value("failed_url") post_nodes = response.css('#news_list .news_block') for post_node in post_nodes: image_url = post_node.css('.entry_summary a img::attr(src)').extract_first("") if image_url.startswith("//"): image_url = "https:" + image_url post_url = post_node.css('h2 a::attr(href)').extract_first("") yield Request(url=parse.urljoin(response.url, post_url), meta={"front_image_url": image_url}, callback=self.parse_detail) break #提取下一页并交给scrapy进行下载 next_url = response.xpath("//a[contains(text(), 'Next >')]/@href").extract_first("") if next_url: yield Request(url=parse.urljoin(response.url, next_url), callback=self.parse)

4回答

提问者 fine纯粹 2020-04-06 18:15:55

解决方法：把循环的break去掉就可以了

0 回复有任何疑惑可以回复我~

收起回答

bobby 2020-04-06 13:49:02

这里保存到数据库中的地方都改成这种模式获取

0 回复有任何疑惑可以回复我~

收起回答

提问者 fine纯粹 #1
```
谢谢老师，已经解决了。是我忘了去掉循环里的break了。
```
回复有任何疑惑可以回复我~ 2020-04-06 18:14:28
bobby 回复提问者 fine纯粹 #2
```
好的，
```
回复有任何疑惑可以回复我~ 2020-04-07 17:03:31

提问者 fine纯粹 2020-04-05 13:59:14

爬取一条后报错信息

0 回复有任何疑惑可以回复我~

收起回答

bobby 2020-04-05 12:34:07

可以把这个逻辑注释一下测试看看能否提取同一页的所有内容

0 回复有任何疑惑可以回复我~

收起回答

提问者 fine纯粹 #1

注释掉，爬取一条就报错了，我把截图放在另一个回答上，请老师看一看

回复有任何疑惑可以回复我~ 2020-04-05 13:56:29

bobby 回复提问者 fine纯粹 #2
```
看看我上面的回复
```
回复有任何疑惑可以回复我~ 2020-04-06 13:46:42

博客园只爬取每页第一条

正在回答回答被采纳积分+3

4回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

热搜

最近搜索清空

博客园只爬取每页第一条

正在回答 回答被采纳积分+3

4回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

正在回答回答被采纳积分+3