rule中follow参数为true。-慕课网

2回答

bobby 2019-01-01 20:00:36

crawler是为了做全站爬取的。如果有特别的抓取需求比如像你这样的不抓取右侧的推荐工作的话不适合用crawler而是直接继承spider就行了

0 回复有任何疑惑可以回复我~

提问者 starkpan #1

我是想要全站爬取，但是这个爬虫如何判断已经爬取了全站，什么时候停下来?
还是会一直不停的爬下去，永不休止。

回复有任何疑惑可以回复我~ 2019-01-01 21:18:35

bobby 回复提问者 starkpan #2

这个是会一直抓取下去的，知道没有重复的url， 如果需要停止爬虫 你可以去重写parse方法 去根据自己的需求去调用spider的close方法关闭爬虫的

回复有任何疑惑可以回复我~ 2019-01-03 17:22:15

提问者 starkpan 回复 bobby #3

终于跑完了，因为怕被反爬虫了，所以降低了速度。爬取了猎聘网所有的职位，大概1G文件.多谢老师解答。

回复有任何疑惑可以回复我~ 2019-01-04 22:03:57

点开查看后面1条评论

提问者 starkpan 2018-12-31 12:27:38

查了查，crapy默认是有去重的在 classRequest中 __init__中有一个参数为dont_filter=False,也就是默认是去重的。

0 回复有任何疑惑可以回复我~

收起回答

bobby #1
```
dont_filter设置为true才代表不去重的
```
回复有任何疑惑可以回复我~ 2019-01-01 19:58:50

提问者 starkpan 回复 bobby #2

咱俩说的意思一样吧。默认为FALSE是去重的，也就是说，为TRUE的时候，是不去重的。
按理说，重复的数据，一般是没有多大意义的，所以默认去重。

回复有任何疑惑可以回复我~ 2019-01-01 21:21:02

bobby 回复提问者 starkpan #3

这个不一定的， 比如这个页面数据更新了 这个时候你需要重新抓取的， 所以具体要看抓取的网站的数据是否会更新以及你是否需要去更新这些数据

回复有任何疑惑可以回复我~ 2019-01-03 17:21:22

rule中follow参数为true。

正在回答

2回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

热搜

最近搜索清空