老师您好,在爬取拉钩网的时候还有很多页面的url不能被爬取到,这里我有两个问题:
第一个是https://www.lagou.com/gongsi地点的url他没有显示出来,放在了一个index中,我的想法是将这些url添加到start_urls中,但是太多了,不知道还有没有更好的办法。
第二个问题比较严重,就是他https://www.lagou.com/gongsi下方的页数标签不会返回url,也就是说所有页面只能爬取第一页的信息,
点击第二页显示pager_is_current,url还是不变,就不知道怎么解决了。。
在首页如果要获取更多信息都会跳转到公司这个页面,就会有很多信息爬取不到。
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
了解课程