老师,直接使用Scrapy的话,在爬虫执行结束后,会被close, 最后的日志基本像这样:
2020-01-15 11:36:51 [scrapy.core.engine] INFO: Spider closed
(finished)
那么,scrapy-redis 是在哪里实现,当没有爬取任务的时候,进程不被关闭的呢?
另外,关于scrapy-redis, 还有几个疑问,顺便请教下老师
1、如果不需要去修改源代码进行扩展,是不是可以通过:pip install scrapy-redis 安装就行,而不需要将源码集成到项目中啊? (这个我看文档是支持直接 install 和下载源码 2种方式的)
2、当往队列发布start_urls的消息后, scrapy是如何实时监听到消息的(中间可能没有执行任务,当往队列push url, 能实时监听到),这个我在源码中一直没找到
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
了解课程