分布式爬虫是大数据爬虫项目必须上的,简单描述下你期望的分布式爬虫的架构方案。
这里提供一些目标数据的参考提案:
- 目标站数据量:5千万+
- 目标站数据增量:1千/天
- 目标站图片文件数量:1000万+
- 期望爬虫日抓取量:100万+
- 预计服务器数量:2C4U100M x 9【服务器】
- 预计可视化管理操作:自建爬虫管理Web服务+Cookie池管理系统【一台服务器】
- 预计任务爬虫数量:32 x 6 或 32x6x2【每台服务器配置两个scrapyd】
- 预计数据库:Redis任务数据库 + 数据存储数据库 【一台服务器】
- 文件管理对象:自建对象存储服务【一台服务器】