请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

博客园只爬取每页第一条

我是用您的源代码运行的,因为每页只爬取一条大概10页过后就要登录了

https://img1.sycdn.imooc.com/szimg/5e87faae0974b18b13530482.jpg

#收集博客园所有404的url以及404页面数
handle_httpstatus_list = [404]

def __init__(self, **kwargs):
    self.fail_urls = []
    dispatcher.connect(self.handle_spider_closed, signals.spider_closed)

def handle_spider_closed(self, spider, reason):
    self.crawler.stats.set_value("failed_urls", ",".join(self.fail_urls))

def parse(self, response):
    """
    1. 获取文章列表页中的文章url并交给scrapy下载后并进行解析
    2. 获取下一页的url并交给scrapy进行下载, 下载完成后交给parse
    """
    #解析列表页中的所有文章url并交给scrapy下载后并进行解析
    if response.status == 404:
        self.fail_urls.append(response.url)
        self.crawler.stats.inc_value("failed_url")

    post_nodes = response.css('#news_list .news_block')
    for post_node in post_nodes:
        image_url = post_node.css('.entry_summary a img::attr(src)').extract_first("")
        if image_url.startswith("//"):
            image_url = "https:" + image_url
        post_url = post_node.css('h2 a::attr(href)').extract_first("")
        yield Request(url=parse.urljoin(response.url, post_url), meta={"front_image_url": image_url},
                      callback=self.parse_detail)
        break

    #提取下一页并交给scrapy进行下载
    next_url = response.xpath("//a[contains(text(), 'Next >')]/@href").extract_first("")
    if next_url:
        yield Request(url=parse.urljoin(response.url, next_url), callback=self.parse)

不知道哪里出了问题,要怎么获取每页的全部文章呢?

正在回答 回答被采纳积分+3

4回答

提问者 fine纯粹 2020-04-06 18:15:55

解决方法:把循环的break去掉就可以了

0 回复 有任何疑惑可以回复我~
bobby 2020-04-06 13:49:02

https://img1.sycdn.imooc.com/szimg/5e8ac262095f86ab09900121.jpg 这里保存到数据库中的地方都改成这种模式获取 https://img1.sycdn.imooc.com//szimg/5e8ac2ca09c6582009490400.jpg

0 回复 有任何疑惑可以回复我~
  • 提问者 fine纯粹 #1
    谢谢老师,已经解决了。是我忘了去掉循环里的break了。
    回复 有任何疑惑可以回复我~ 2020-04-06 18:14:28
  • bobby 回复 提问者 fine纯粹 #2
    好的,
    回复 有任何疑惑可以回复我~ 2020-04-07 17:03:31
提问者 fine纯粹 2020-04-05 13:59:14

爬取一条后报错信息

https://img1.sycdn.imooc.com//szimg/5e89734409a3e09008870192.jpghttps://img1.sycdn.imooc.com//szimg/5e89737609ea62be09690515.jpg


0 回复 有任何疑惑可以回复我~
bobby 2020-04-05 12:34:07

https://img1.sycdn.imooc.com/szimg/5e895fa9091bcf5a07120097.jpg 可以把这个逻辑注释一下 测试看看能否提取同一页的所有内容

0 回复 有任何疑惑可以回复我~
  • 提问者 fine纯粹 #1
    注释掉,爬取一条就报错了,我把截图放在另一个回答上,请老师看一看
    回复 有任何疑惑可以回复我~ 2020-04-05 13:56:29
  • bobby 回复 提问者 fine纯粹 #2
    看看我上面的回复
    回复 有任何疑惑可以回复我~ 2020-04-06 13:46:42
问题已解决,确定采纳
还有疑问,暂不采纳
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号