采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
我想问您一下,现在爬诸如拉勾,boss直聘这种招聘网站(只是爬一些职位信息然后做个搜索引擎玩玩)会不会被请去喝茶啊?如果遵守这些网站的robots.txt协议,好像我们啥都不能干了。
别公开这些数据,你自己做个数据分析出来没事,别商用 别免费 一般没有问题,抓取的时候现在除了百度的爬虫以外 估计没有人遵循robots协议
那一般爬这种网站,请求速率和并发控制在怎样的程度比较好?菜鸟很怕控制不了爬虫,把人家网站打挂了。
不要无节制的抓取就行了 一般不会因为你抓取过快告你的 因为对方会做反爬的 你只要控制住刚好能抓取到数据就行了
登录后可查看更多问答,登录/注册
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
4.7k 30
2.5k 18
1.1k 18
1.3k 15
2.7k 15