请稍等 ...

crawlspider 分布式是先爬网页再解析网页吗

老师我用分布式crawlSpider爬取一个电影网站爬了一个多小时都还在爬url 它是把url全爬下来放在redis后才开始取出来解析吗？

10codes15bugs 2019-10-14 13:21:51

源自：7-6 item loader方式解析职位

967

收起

提交取消

2回答

提问者 10codes15bugs 2019-10-14 23:12:59

改了一下rule能爬了但是最后log显示爬了9000多页实际入库的才600多个数据怎么回事呢

0 回复有任何疑惑可以回复我~

收起回答

bobby #1

你看看是不是到后面以后所有的数据返回的状态码不是200了呢

回复有任何疑惑可以回复我~ 2019-10-17 17:50:05

提问者 10codes15bugs 回复 bobby #2

状态码都是200  但是很多不解析  我看redis的request指纹都有5000多条   为什么有些request不解析呢？

回复有任何疑惑可以回复我~ 2019-10-19 01:21:37

提问者 10codes15bugs 回复 bobby #3

顺便问一下老师  分布式爬虫的话 重写start_request函数就 会报错  因为没有start-url了 怎么办  
for url in start_url:
    yield要带参数怎么做呢

回复有任何疑惑可以回复我~ 2019-10-19 01:26:36

点开查看后面3条评论

提问者 10codes15bugs 2019-10-14 20:22:46

nl爬完全部url也不提取！！

0 回复有任何疑惑可以回复我~

收起回答

相似问题

两个或两个以上的网站爬取算是分布式爬虫吗？我这样写可以启动无数个爬虫程序吧？为啥启动完第一个就直接结束了呢？

基于CrawlSpider，同一份代码爬取多个网站的数据，如果限制不爬取外链网站数据

请问源代码有实现scrapy-redis对招聘网站进行分布式爬虫吗

怎么爬取一个网站里面的邮箱

爬虫的网页格式

登录后可查看更多问答，登录/注册

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

参与学习 5831 人
解答问题 6293 个

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

了解课程

本课精华内容

问答作业

Missing argument grant_type

5.7k 30

MysqlTwistedPipline的对象没有cursor属性

3.1k 18

知乎answer提取不到

1.8k 18

为什么知乎数据导入不到MySQL数据库中？

2.0k 15

运行 scrapy crawl jobbole 报错

3.6k 15

查看更多本课问答

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

crawlspider 分布式是先爬网页再解析网页吗

正在回答回答被采纳积分+3

2回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

热搜

最近搜索清空

crawlspider 分布式是先爬网页再解析网页吗

正在回答 回答被采纳积分+3

2回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

正在回答回答被采纳积分+3