采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
我现在想做一个每天定时检查网站是否更新的需求,我如何在定时的启动的代码里判断我的爬虫是否在运行的,如果不在运行我才会去启动.
你看过后面的scrapy-redis章节中可以解决你这个需求 因为爬虫会可以一直运行着 你只需要写一个进程每天去检查更新 检查到以后 直接将url写入到redis中就行了
比如我现在想抓赶集网下某个类目下的全国数据,我是从全国城市下一级一级抓的,这样去检测是否更新会很麻烦,有没有什么方法让我的爬虫再重新抓一次,但是碰到已经抓过的url就停止.
这个我的回答里面就是这个意思啊, 你要看后面的scrapy-redis的章节 到时候直接启动一个进程 直接把每个城市的url定期放入到redis队列中 然后把这个url的优先级设置高一点就行了
登录后可查看更多问答,登录/注册
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
5.3k 30
2.9k 18
1.6k 18
1.8k 15
3.4k 15
购课补贴联系客服咨询优惠详情
慕课网APP您的移动学习伙伴
扫描二维码关注慕课网微信公众号