请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

定时抓取的问题

我现在想做一个每天定时检查网站是否更新的需求,我如何在定时的启动的代码里判断我的爬虫是否在运行的,如果不在运行我才会去启动.

正在回答 回答被采纳积分+3

1回答

bobby 2017-08-25 09:29:05

你看过后面的scrapy-redis章节中可以解决你这个需求 因为爬虫会可以一直运行着 你只需要写一个进程每天去检查更新 检查到以后 直接将url写入到redis中就行了

0 回复 有任何疑惑可以回复我~
  • 提问者 Rtsunoath #1
    比如我现在想抓赶集网下某个类目下的全国数据,我是从全国城市下一级一级抓的,这样去检测是否更新会很麻烦,有没有什么方法让我的爬虫再重新抓一次,但是碰到已经抓过的url就停止.
    回复 有任何疑惑可以回复我~ 2017-08-25 09:59:07
  • bobby 回复 提问者 Rtsunoath #2
    这个我的回答里面就是这个意思啊, 你要看后面的scrapy-redis的章节 到时候直接启动一个进程 直接把每个城市的url定期放入到redis队列中 然后把这个url的优先级设置高一点就行了
    回复 有任何疑惑可以回复我~ 2017-08-28 09:07:21
问题已解决,确定采纳
还有疑问,暂不采纳
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号