三级页面爬取速度变慢-慕课网

1回答

提问者纪年之爱 2018-04-23 09:05:59

我试了不爬第三层，同时把第二层的网址存到redis里面，第二层共有一千多条网址，
以上操作很快就完成了。
然后我新开了一个爬虫，先用start_requests函数取代start_urls从redis中循环读取网址，
然后yield到parse函数，然后就是类似普通的伯乐网爬取了，
获取传来的网址A里面的数据和下一级网址Bs。
每个A大概有最多一百多个Bs
然后我把Bs传到prase_detail获取具体信息保存到数据库。
结果我发现，竟然比之前的方法更慢，之前的方法是一开始特别快，后来慢，这个方法倒好，一开始就慢到极致

0 回复有任何疑惑可以回复我~

收起回答

bobby #1

你有没有打印过时间 到底是服务器返回慢 还是保存数据库慢？

回复有任何疑惑可以回复我~ 2018-04-23 10:35:50

提问者纪年之爱回复 bobby #2

老师，你好，scrapy中怎么打印服务器响应时间和数据库响应时间，分别在哪里打印，以伯乐网爬取为例的话

回复有任何疑惑可以回复我~ 2018-04-24 22:42:30

提问者纪年之爱回复 bobby #3

我把保存到数据库的代码给注释了，发现只是请求以及解析的速度依然很慢，看来问题应该是出在这个上面，但是这个应该怎么解决呢？

回复有任何疑惑可以回复我~ 2018-04-24 22:51:32

点开查看后面3条评论

三级页面爬取速度变慢

正在回答回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

热搜

最近搜索清空