请稍等 ...

crwalspider爬取url的问题

老师您好，在爬取拉钩网的时候还有很多页面的url不能被爬取到，这里我有两个问题：
第一个是https://www.lagou.com/gongsi地点的url他没有显示出来，放在了一个index中，我的想法是将这些url添加到start_urls中，但是太多了，不知道还有没有更好的办法。
图片描述
第二个问题比较严重，就是他https://www.lagou.com/gongsi下方的页数标签不会返回url，也就是说所有页面只能爬取第一页的信息，
点击第二页显示pager_is_current，url还是不变，就不知道怎么解决了。。

在首页如果要获取更多信息都会跳转到公司这个页面，就会有很多信息爬取不到。

慕娘7402538 2020-04-29 17:49:16

源自：7-3 CrawlSpider源码分析

1154

收起

提交取消

1回答

bobby 回答被采纳获得+3积分 2020-05-02 12:26:26

课程中讲解过可以覆盖start_requests 这里面你可以抓取页面分析出来然后for循环这个url就行了
通过网络请求就鞥分析出来这个请求是什么格式以及参数是什么

0 回复有任何疑惑可以回复我~

提问者慕娘7402538 #1
```
非常感谢！
```
回复有任何疑惑可以回复我~ 2020-05-02 13:49:01
提问者慕娘7402538 #2
```
老师那第二个问题他下面翻页没有url，要怎么处理
```
回复有任何疑惑可以回复我~ 2020-05-02 13:55:02
bobby 回复提问者慕娘7402538 #3
```
你通过网络请求分析一下就行了
```
回复有任何疑惑可以回复我~ 2020-05-04 09:55:29

相似问题

知乎爬取问题

爬取拉钩要登录

只爬取，不处理

基于CrawlSpider，同一份代码爬取多个网站的数据，如果限制不爬取外链网站数据

解决反爬问题

登录后可查看更多问答，登录/注册

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

参与学习 5831 人
解答问题 6293 个

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

了解课程

本课精华内容

问答作业

Missing argument grant_type

5.7k 30

MysqlTwistedPipline的对象没有cursor属性

3.0k 18

知乎answer提取不到

1.7k 18

为什么知乎数据导入不到MySQL数据库中？

1.9k 15

运行 scrapy crawl jobbole 报错

3.5k 15

查看更多本课问答

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

扫描二维码
关注慕课网微信公众号