启动scrapy crawl jobbole -s JOBDIR=job

2回答

bobby 2020-04-16 15:52:34

你先试试不放这个进去会不会报错？

0 回复有任何疑惑可以回复我~

提问者愚墨 #1

把item_loader，去掉的话是不是报错，数据也可以存入数据库中。
我有个疑问，我看您的源码时，也似这么写的····

还有就是scrapy的暂停与重启，对于往后的开发代码有什么影响吗？

回复有任何疑惑可以回复我~ 2020-04-16 19:27:13

bobby 回复提问者愚墨 #2

你留下qq我加你看看 课程讲解的如何可以的话 那么应该就是可以 你的scrapy版本是多少

回复有任何疑惑可以回复我~ 2020-04-17 19:12:31

bobby 2020-04-14 17:13:24

yield request对象的时候不能将selector对象放入到meta属性中，因为这个地方的值会进行pickle 这样会抛出异常你可以将response的html放入进去然后到另一个函数的时候在生成selector对象

0 回复有任何疑惑可以回复我~

收起回答

提问者愚墨 #1

你好老师，我还是有点不太理解？是我解析出来selector，不能放入meta属性中吗？但是我直接运行spider crawl jobbole 时没有出现过，这似异常，还请老师在指点一下，谢谢。

回复有任何疑惑可以回复我~ 2020-04-14 21:35:15

提问者愚墨 #2

这是我的解析代码：
def parse_detail(self, response):
      match_re = re.match('.*?(\d+)', response.url)
        if match_re:
            post_id = match_re.group(1)
      item_loder = ArticleItemLoder(item=JobBoleArticleItem(), response=response)
            item_loder.add_xpath('title', '//div[@id="news_main"]/div[@id="news_title"]/a/text()')
........
yield Request(url=parse.urljoin(response.url, "/NewsAjax/GetAjaxNewsInfo?contentId={}".format(post_id)),
                          meta={'article_item': item_loder, 'url': response.url},
                          callback=self.parse_nums
                          )

回复有任何疑惑可以回复我~ 2020-04-14 22:01:47

启动scrapy crawl jobbole -s JOBDIR=job_info/001报错

正在回答回答被采纳积分+3

2回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

热搜

最近搜索清空