分布式爬虫架构的架构方案讨论
707
等5人参与

分布式爬虫是大数据爬虫项目必须上的,简单描述下你期望的分布式爬虫的架构方案。

这里提供一些目标数据的参考提案:

  1. 目标站数据量:5千万+
  2. 目标站数据增量:1千/天
  3. 目标站图片文件数量:1000万+
  4. 期望爬虫日抓取量:100万+
  5. 预计服务器数量:2C4U100M x 9【服务器】
  6. 预计可视化管理操作:自建爬虫管理Web服务+Cookie池管理系统【一台服务器】
  7. 预计任务爬虫数量:32 x 6 或 32x6x2【每台服务器配置两个scrapyd】
  8. 预计数据库:Redis任务数据库 + 数据存储数据库 【一台服务器】
  9. 文件管理对象:自建对象存储服务【一台服务器】

图片描述

我的作业
去发布

登录后即可发布作业,立即

全部作业

数据加载中...

意见反馈 帮助中心 APP下载
官方微信