请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

crwalspider爬取url的问题

老师您好,在爬取拉钩网的时候还有很多页面的url不能被爬取到,这里我有两个问题:
第一个是https://www.lagou.com/gongsi地点的url他没有显示出来,放在了一个index中,我的想法是将这些url添加到start_urls中,但是太多了,不知道还有没有更好的办法。
图片描述
图片描述第二个问题比较严重,就是他https://www.lagou.com/gongsi下方的页数标签不会返回url,也就是说所有页面只能爬取第一页的信息,
点击第二页显示pager_is_current,url还是不变,就不知道怎么解决了。。
图片描述
在首页如果要获取更多信息都会跳转到公司这个页面,就会有很多信息爬取不到。

正在回答

1回答

  1. 课程中讲解过可以覆盖start_requests 这里面你可以抓取页面分析出来 然后for循环这个url就行了

  2. https://img1.sycdn.imooc.com/szimg/5eacf652095c558d16770424.jpg

  3. https://img1.sycdn.imooc.com//szimg/5eacf6640989067c06130270.jpg 通过网络请求就鞥分析出来这个请求是什么格式以及参数是什么

0 回复 有任何疑惑可以回复我~
  • 提问者 慕娘7402538 #1
    非常感谢!
    回复 有任何疑惑可以回复我~ 2020-05-02 13:49:01
  • 提问者 慕娘7402538 #2
    老师那第二个问题他下面翻页没有url,要怎么处理
    回复 有任何疑惑可以回复我~ 2020-05-02 13:55:02
  • bobby 回复 提问者 慕娘7402538 #3
    你通过网络请求分析一下就行了
    回复 有任何疑惑可以回复我~ 2020-05-04 09:55:29
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信