请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

两个或两个以上的网站爬取算是分布式爬虫吗? 我这样写可以启动无数个爬虫程序吧?为啥启动完第一个就直接结束了呢?

图片描述

问题一:两个或两个以上的网站爬取算是分布式爬虫吗?
问题二:我这样写可以启动无数个爬虫程序吧?
问题三:为啥启动完第一个就直接结束了呢?
问题四:那有没有办法解决呀,或是要怎么样代码才能实现同时爬取10个,20个网站呢?

正在回答 回答被采纳积分+3

1回答

bobby 2021-10-13 10:01:16
  1. 分布式这个概念其实严格意义上来说,启动多个爬虫不算分布式,分布式严格的意义来说应该是,比如我要爬取一个网站这个网站内容很多,容易被反爬比如淘宝。这个时候我可以将这一个爬虫分布式部署到100台服务器上,这一百个进程间可以通信,你爬一部分我爬一部分,不要我爬取过的你再爬取,后面讲解的scrapy-redis就能达到这个效果

  2. 运行多个爬虫不用这样直接在main.py直接运行并且直接运行这个文件,课程中写这个文件的目的是为了方便调试用的,实际部署你直接在cmd命令窗口中 直接scrapy crawl jobbole,这样一个命令就启动了jobbole的爬虫了,你如果想要再运行一个知乎的爬虫,再开启一个cmd窗口 直接运行 scrapy crawl zhihu,这样多个爬虫多个命令启动就行了

0 回复 有任何疑惑可以回复我~
  • 提问者 慕容3089938 #1
    请教下老师,那同时爬取10个,100个网站的爬虫程序,不叫分布式爬虫,那叫什么呢?有没有专业术语呀?
    回复 有任何疑惑可以回复我~ 2021-10-13 10:31:39
  • bobby 回复 提问者 慕容3089938 #2
    你这只能叫10个或者100个爬虫,这些爬虫之间没有协作完成同一件事
    回复 有任何疑惑可以回复我~ 2021-10-14 15:18:49
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信