ITEM_PIPELINES = {
'scrapy_redis.pipelines.RedisPipeline': 400,
}
设置了这个参数,我们就不用自己写Pipeline,然后数据就会自动吧爬取的数据保存到redis数据库。
然后我有2个疑问?
1:redis是基于内存的,如果我们爬取数据量过大,对内存造成的压力就变大了,这种模式是否就不适用了?
2:我们怎么从redis上把我们需要的数据重新保存进我们的数据库,或者说我们该怎么写,写在什么地方。?
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
了解课程