博客园就爬取一条就停止了，连接es出了问题-慕课网

2回答

提问者 fine纯粹 2020-04-03 12:58:53

我是用您的源代码运行的，因为每页只爬取一条所以一下子就要登录了

//img1.sycdn.imooc.com//szimg/5e87faaf098fd38205000179.jpg

博客园部分代码不知道哪里出了问题，要怎么获取每页的全部文章呢？

#收集博客园所有404的url以及404页面数
handle_httpstatus_list = [404]

def __init__(self, **kwargs):
    self.fail_urls = []
    dispatcher.connect(self.handle_spider_closed, signals.spider_closed)

def handle_spider_closed(self, spider, reason):
    self.crawler.stats.set_value("failed_urls", ",".join(self.fail_urls))

def parse(self, response):
    """
    1. 获取文章列表页中的文章url并交给scrapy下载后并进行解析
    2. 获取下一页的url并交给scrapy进行下载， 下载完成后交给parse
    """
    #解析列表页中的所有文章url并交给scrapy下载后并进行解析
    if response.status == 404:
        self.fail_urls.append(response.url)
        self.crawler.stats.inc_value("failed_url")

    post_nodes = response.css('#news_list .news_block')
    for post_node in post_nodes:
        image_url = post_node.css('.entry_summary a img::attr(src)').extract_first("")
        if image_url.startswith("//"):
            image_url = "https:" + image_url
        post_url = post_node.css('h2 a::attr(href)').extract_first("")
        yield Request(url=parse.urljoin(response.url, post_url), meta={"front_image_url": image_url},
                      callback=self.parse_detail)
        break

    #提取下一页并交给scrapy进行下载
    next_url = response.xpath("//a[contains(text(), 'Next >')]/@href").extract_first("")
    if next_url:
        yield Request(url=parse.urljoin(response.url, next_url), callback=self.parse)

0 回复有任何疑惑可以回复我~

收起回答

bobby 2020-04-03 11:58:39

是否有运行es_model的init方法生成这个索引对象你的es是什么版本？

0 回复有任何疑惑可以回复我~

收起回答

提问者 fine纯粹 #1

运行es_types来创建索引后，数据的确可以写人es了但是只有一条数据就结束了。我的es是5.5.3版本  dsl是5.1.0，我把结果和报错截图放在另一个回答上请老师看一下

回复有任何疑惑可以回复我~ 2020-04-03 12:54:56

bobby 回复提问者 fine纯粹 #2

你的意思是抓取到一条数据以后就报错无法继续入库了 还是没有报错 但是一直都只能入库一条数据？你可以在es的pipeline中打断点看能进入几次？

回复有任何疑惑可以回复我~ 2020-04-04 13:32:14

提问者 fine纯粹回复 bobby #3

es可以正常入库，只是博客园它就爬每一页的第一条，没有爬取每一页的全部内容。具体代码和截图我放在另外一个回答那里

回复有任何疑惑可以回复我~ 2020-04-04 17:02:30

点开查看后面1条评论

博客园就爬取一条就停止了，连接es出了问题

正在回答回答被采纳积分+3

2回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

热搜

最近搜索清空