两个或两个以上的网站爬取算是分布式爬虫吗？我这样写可以启动无数个爬虫程序吧？为啥启动完第一个就直接结束了呢？-慕课网

1回答

bobby 2021-10-13 10:01:16

分布式这个概念其实严格意义上来说，启动多个爬虫不算分布式，分布式严格的意义来说应该是，比如我要爬取一个网站这个网站内容很多，容易被反爬比如淘宝。这个时候我可以将这一个爬虫分布式部署到100台服务器上，这一百个进程间可以通信，你爬一部分我爬一部分，不要我爬取过的你再爬取，后面讲解的scrapy-redis就能达到这个效果
运行多个爬虫不用这样直接在main.py直接运行并且直接运行这个文件，课程中写这个文件的目的是为了方便调试用的，实际部署你直接在cmd命令窗口中直接scrapy crawl jobbole，这样一个命令就启动了jobbole的爬虫了，你如果想要再运行一个知乎的爬虫，再开启一个cmd窗口直接运行 scrapy crawl zhihu，这样多个爬虫多个命令启动就行了

0 回复有任何疑惑可以回复我~

提问者慕容3089938 #1

请教下老师，那同时爬取10个，100个网站的爬虫程序，不叫分布式爬虫，那叫什么呢？有没有专业术语呀？

回复有任何疑惑可以回复我~ 2021-10-13 10:31:39

bobby 回复提问者慕容3089938 #2
```
你这只能叫10个或者100个爬虫，这些爬虫之间没有协作完成同一件事
```
回复有任何疑惑可以回复我~ 2021-10-14 15:18:49

两个或两个以上的网站爬取算是分布式爬虫吗？我这样写可以启动无数个爬虫程序吧？为啥启动完第一个就直接结束了呢？