请稍等 ...

关于分布式爬虫的管理问题。

老师，你在scrapy-redis 和 scrapyd的部署下都没有演示如何做一个
master salve 的演示
比如说说主机master爬取了url 通过bloom fliter后
如何通过 redis 分配到从机 salve 然后从机再进行作业， scrapyd 您只演示了一台电脑的部署，
能不能演示如何通过master 分配 url 到 salve 进行作业……
还有 redis mysql 数据库的 settings
用分布式要怎么设置呀……

慕用6721716 2017-05-02 14:48:43

源自：9-10 scrapy的数据收集

817

收起

提交取消

2回答

bobby 2017-05-03 09:33:38

亲 scrapy-redis的分布式爬虫非常简单，不需要过多的设置，先在settings中设置 REDIS_PARAMS
={

'REDIS_URL': 'url',
'REDIS_HOST': 'host',
'REDIS_PORT': 'port',
'REDIS_ENCODING': 'encoding',

}

然后只需要在另一台服务器上直接开启scrapy-redis就行了，

然后填写好相关的配置就行了，其实源码都已经了解了，另起一台服务器来说就更简单了，我本地因为虚拟机一直没有搭建好所以课程中没有讲到再用一台服务器启动实例

0 回复有任何疑惑可以回复我~

收起回答

慕粉1724417796 2017-05-03 23:15:12

我之前也是这个意思，视频中很多都是讲源码或官方文档。有时候看的会一脸懵逼，希望能多补充一些实例。

我都是慢慢自己摸索，才明白一点点。课程本先是‘分布式’然后是‘搜索引擎’，但课程却对前面基础花太多时间，后面重要的关于‘分布式’和‘搜索引擎’没有花更多时间

0 回复有任何疑惑可以回复我~

收起回答

bobby #1

谢谢提醒， 关于这方面如果遇到什么问题可以在提问区提问

回复有任何疑惑可以回复我~ 2017-05-19 20:54:53

相似问题

两个或两个以上的网站爬取算是分布式爬虫吗？我这样写可以启动无数个爬虫程序吧？为啥启动完第一个就直接结束了呢？

请问源代码有实现scrapy-redis对招聘网站进行分布式爬虫吗

老师下一门的Python爬虫系列实战课程是《高级爬虫工程师》？

请教老师一个问题

关于分布式爬虫

登录后可查看更多问答，登录/注册

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

参与学习 5796 人
解答问题 6290 个

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

了解课程

本课精华内容

问答作业

Missing argument grant_type

4.8k 30

MysqlTwistedPipline的对象没有cursor属性

2.6k 18

知乎answer提取不到

1.2k 18

为什么知乎数据导入不到MySQL数据库中？

1.4k 15

运行 scrapy crawl jobbole 报错

2.8k 15

查看更多本课问答

意见反馈帮助中心 APP下载

官方微信

关于分布式爬虫的管理问题。

正在回答

2回答

相似问题