内容管理平台数据抓取，深度优先模式抓取问题-慕课网

bobby 2018-04-09 16:11:21

你这里说到的数据爬不全是什么意思？是一段时间后会停止掉？然后数据并没有抓取完爬虫就停止了，深度优先不代表一定能抓取所有数据，因为一个循环到后期有可能陷入一个环路中，到这个时候你是有可能还没有抓取到所有数据的时候你的深度已经递归完成了这种时候你需要找一些其他的入口点才行

0 回复有任何疑惑可以回复我~

收起回答

提问者 qq_多爱一下_03725241 #1

数据没有爬全的意思是数据库里面有90000条数据但是只爬了3万多条数据，还有6万条数据没有爬出来。我现在就想把所有的数据都爬出来，但是不知道逻辑要怎么处理才能把所有的数据都爬出来？老师你说的找一些其他的入口点是什么意思？

回复有任何疑惑可以回复我~ 2018-04-09 20:07:19

bobby 回复提问者 qq_多爱一下_03725241 #2

我的意思是就是3万条数据已经构成闭环了， 另外6W条因为没有入口所有获取不到， 你需要另外找一个入口 很多时候一个初始化url并不能抓取所有内容，你另外一个保护着6000个url的起始url作为抓取起始页

回复有任何疑惑可以回复我~ 2018-04-10 10:21:02

提问者 qq_多爱一下_03725241 回复 bobby #3

我感觉是我爬一次的时候，可能根本没有获取到另外的url地址导致没有数据，而且url地址是动态生成的，必须依据上一个节点的主键去查询子节点的数据，就这样一直循环。到了type不为folder才结束，然后在进行数据抓取。

回复有任何疑惑可以回复我~ 2018-04-10 10:53:25

提问者 qq_多爱一下_03725241 2018-04-08 15:43:08

这里的type如果是folder表示有子节点，数据格式就这样。

0 回复有任何疑惑可以回复我~

收起回答

bobby 2018-04-08 14:34:51

你这里我访问有点问题不能访问，是不是因为是内网的问题？或者你上传一个数据我能能够参考一下

0 回复有任何疑惑可以回复我~

收起回答

内容管理平台数据抓取，深度优先模式抓取问题

正在回答回答被采纳积分+3

3回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

热搜

最近搜索清空

内容管理平台数据抓取，深度优先模式抓取问题

正在回答 回答被采纳积分+3

3回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

正在回答回答被采纳积分+3