关於spider的观念问题-慕课网

1回答

bobby 回答被采纳获得+3积分 2023-02-07 22:29:24

是的，大致思路没问题，接下来就是为什么一个应该很顺利的过程，在scrapy中会显得如何不方便，主要原因都是在于异步，scrapy是一个异步框架，所以基本上回调只能由scrapy来处理，不过scrapy已经将这里的回调隐藏了，所以我们只需要写解析规则和是否要进一步抓取就行了，如果从这个页面中解析到更多需要进一步抓取的直接yield request就行了，如这个html中解析到结果了需要存库，直接yield item就行了，这两种不同的类型在scrapy的engine接收到以后自然就知道应该是交给pipeline去处理还是交给downloader去处理

1 回复有任何疑惑可以回复我~

收起回答

提问者 weixin_慕仙7241916 #1

谢谢老师的回答，但我不太明白这段话的意思：
【scrapy是一个异步框架，所以基本上回调只能由scrapy来处理，不过scrapy已经将这里的回调隐藏了，所以我们只需要写解析规则和是否要进一步抓取就行了】 

想请问异步框架与回调只能交给scrapy的关系是甚么呢? 意思是我们选用了这个框架，就无法自定义callback的方式吗?

另外是engine、pipeline与downloader我目前还不太理解，后续的课程会教对吗?

回复有任何疑惑可以回复我~ 2023-02-07 23:31:19

bobby 回复提问者 weixin_慕仙7241916 #2

callback回调函数scrapy已经给我们了， 也就是如果进行异步调用scrapy给我们做了，一般我们不要去定制，主要是因为门槛高，当然有能力熟悉scrapy的源码后也有能力修改的， 课程中有pipeline和downloader的整体架构的，但是没有讲解downloader源码，因为异步的核心就在downloader中，所以门槛较高，不建议看这个，懂了scrapy以后再去看这个源码比较好

回复有任何疑惑可以回复我~ 2023-02-08 10:12:29

提问者 weixin_慕仙7241916 #3
```
非常感谢！
```
回复有任何疑惑可以回复我~ 2023-02-08 10:48:17

关於spider的观念问题

正在回答

1回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

热搜

最近搜索清空