请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

Rule类中的follow参数问题

Rule(LinkExtractor(allow=('gongsi/\d+.html',)), follow=True)

老师,这个follow的官网解释为:

follow 是一个布尔(boolean)值,指定了根据该规则从response提取的链接是否需要跟进。 如果 callback 为None, follow 默认设置为 True ,否则默认为 False 。

但是'跟进'这个词到底是什么意思?

是不是假如说有个网址为http://example1.com,这个页面里有3个子页面

http://example2.com

http://example3.com

http://example4.com

follow参数为true时,crawlSpider就会爬取这三个子页面,如果是的话,crawlspider是如何定位到这三个链接的?

正在回答

1回答

bobby 2018-11-26 21:02:36

是的, crawlspider在parse方法中会根据你这里的设置 决定是否去解析出新的url,具体的解析规则是提取出所有的有href的a标签

0 回复 有任何疑惑可以回复我~
问题已解决,确定采纳
还有疑问,暂不采纳
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号