采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
在redis分布式基础上如何加入多进程?网上看了很多教程还是没弄会,怎么破?
http://blog.csdn.net/loguat/article/details/73550780
你可以看看这篇文章, 但是我是不建议你去用多进程实现的, 第一对于网络io这种操作, 多进程几乎没有任何性能上的提升, 因为性能都在网口上, 和几乎没有任何关系, 多进程只会增加你的代码复杂度, 第二 当时调用crawl spider zhihu 启动一个spider的时候 就已经是一个进程了, 你多启动几次就是多少个进程了
那老师如果要求能非常大幅度的提升爬去速度,让爬取速度能有一个质的跨越,要怎么实现呢?用机器数量硬提?还是大幅度提升网速?或者是别的什么优化策略嘛?
大幅度提升单服务器多进程不光不能提高性能 而且代码很难维护, 如果要大规模爬取, 一定要通过分布式来完成, 有些大公司光爬虫服务器就是上千台, 单服务器不管如何提高都对性能提升有限, 毕竟宽带有限, 有些爬虫服务器甚至可以部署到爬取网站的同一个城市去
登录后可查看更多问答,登录/注册
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
4.8k 30
2.5k 18
1.1k 18
1.4k 15
2.8k 15