如何实现提供restful接口，并实现增量爬取-慕课网

1回答

bobby 2019-12-12 17:47:00

scrapy本身并没有提供过多的接口给外部，不过可以使用scrapy-redis来完成，但是逻辑需要自己写，你可以写一个服务将不同的任务提交到redis队列中，但是队列应该如何处理需要自己去写逻辑

0 回复有任何疑惑可以回复我~

提问者慕尼黑7546459 #1

额，还是不太理解。
老师，我现在的需求是这样。
首先，会通过scrapy爬去比如豆瓣的电影数据；
这些数据会有专门的系统来编辑运营。

然后，当运营时发现库里没有某部电影，运营系统（java实现）希望通过api单独去爬去这部电影的数据。

问题：scrapy是该如何提供这个api接口

谢谢老师

回复有任何疑惑可以回复我~ 2019-12-12 21:09:50

bobby 回复提问者慕尼黑7546459 #2

你这样描述就清楚多了，其实这个问题我并不建议你通过一个scrapy爬虫就完成这个功能。你可以这样：
1. 原来的spider仍然完成自己的功能。 2. 你重新开一个spider，逻辑可以保持一致，但是redis的队列自己用一个新名字，这个爬虫一致运行的， 3. 你写一个api接口比如tornado或者aiohttp写都行，完成接收请求，然后把url写入到队列中，这样这个爬虫一旦有url就会立即去爬，爬取到以后写入到数据库，你当前的aiohttp交出去url以后就一直查询数据库等待是否已经入库如果已经入库了就可以返回给前端结果

回复有任何疑惑可以回复我~ 2019-12-15 12:14:41

提问者慕尼黑7546459 回复 bobby #3

好的，谢谢老师。

我理解一下您的思路：
1、原来的spider仍然完成自己的功能（全量自动爬取的）
2、通过 tornado或aiohttp 开一个 api接口，这个接口的逻辑是根据参数生成爬取的url，并发布到redis队列中，然后接着轮询查询数据库，获取数据返回给服务调用方
3、新开一个spider（要保证一直运行），这个spider 订阅步骤2发布的消息，然后去爬取数据并入库。

以上，因为我刚自学python不久，还有很多不熟悉的，我还有几个问题再麻烦老师解答下：
1、如何让 新开的那个spider一直运行的啊
2、通过 tornado或aiohttp 开的api接口，也是跟spider在一个scrapy项目中吗

回复有任何疑惑可以回复我~ 2019-12-16 11:27:54

点开查看后面4条评论

如何实现提供restful接口，并实现增量爬取

正在回答回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

热搜

最近搜索清空