请稍等 ...

定时抓取的问题

我现在想做一个每天定时检查网站是否更新的需求,我如何在定时的启动的代码里判断我的爬虫是否在运行的,如果不在运行我才会去启动.

Rtsunoath 2017-08-24 10:23:38

源自：9-11 scrapy信号详解

562

收起

提交取消

1回答

bobby 2017-08-25 09:29:05

你看过后面的scrapy-redis章节中可以解决你这个需求因为爬虫会可以一直运行着你只需要写一个进程每天去检查更新检查到以后直接将url写入到redis中就行了

0 回复有任何疑惑可以回复我~

收起回答

提问者 Rtsunoath #1

比如我现在想抓赶集网下某个类目下的全国数据,我是从全国城市下一级一级抓的,这样去检测是否更新会很麻烦,有没有什么方法让我的爬虫再重新抓一次,但是碰到已经抓过的url就停止.

回复有任何疑惑可以回复我~ 2017-08-25 09:59:07

bobby 回复提问者 Rtsunoath #2

这个我的回答里面就是这个意思啊， 你要看后面的scrapy-redis的章节 到时候直接启动一个进程 直接把每个城市的url定期放入到redis队列中 然后把这个url的优先级设置高一点就行了

回复有任何疑惑可以回复我~ 2017-08-28 09:07:21

相似问题

内容管理平台数据抓取，深度优先模式抓取问题

我用fiddler抓取旧版本的app怎么抓取不到更新app的接口

抓取这种招聘网站会有风险吗？

wireshark抓http包的问题，怎么抓不到

老师比如我想动态获取美团美食的数据动态抓取到网页之后还怎么处理呢

登录后可查看更多问答，登录/注册

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

参与学习 5829 人
解答问题 6293 个

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

了解课程

本课精华内容

问答作业

Missing argument grant_type

5.3k 30

MysqlTwistedPipline的对象没有cursor属性

2.9k 18

知乎answer提取不到

1.6k 18

为什么知乎数据导入不到MySQL数据库中？

1.8k 15

运行 scrapy crawl jobbole 报错

3.4k 15

查看更多本课问答

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

定时抓取的问题

正在回答回答被采纳积分+3

1回答

相似问题