请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

动态网站的抓取思路和方式

http://openlaw.cn/search/judgement/type?causeId=270cfcd1df47453d9ff4b8d40901a587&selected=true

请问一下,这个网址下面的列表以及详情页怎么抓取呢?

我使用了老师讲的三种方式,都没有获取到网页元素,因为需要批量获取列表页所有信息,所以使用selenium会不会比较慢。

使用job伯乐和知乎的方式获取列表页URL的时候返回为空[]。

使用拉勾网的方式获取列表页URL的时候会有数据,但是无法使用itemLoader获取详情页的元素。

老师在讲动态网站的时候讲的内容不多,关于这个网站能不能给一个思路呢?

正在回答 回答被采纳积分+3

1回答

bobby 2017-06-15 10:47:28

亲 这个页面我看过是静态页面 不需要动态页面技术, 但是这个网站采用了反爬虫策略 第一次请求回来的页面实际上html不是你在浏览器里面看到的页面, 你用f12去调试页面就知道实际上浏览器是完成了一次跳转才到真正的页面的


from selenium import webdriver
browser = webdriver.Firefox()

browser.get('http://openlaw.cn/search/judgement/type?causeId=270cfcd1df47453d9ff4b8d40901a587&selected=true')
print (browser.page_source)

这个是我在本地的调试 在print 处打个断点实际上是能看到page_source的

主要是要弄清楚这个页面的跳转是如何完成的, 我需要分析一下请求如何跳转的, 但是可以确定的是这个网站不是动态网站技术 难度不大

0 回复 有任何疑惑可以回复我~
  • 提问者 Lune丶 #1
    我用selenium尝试过了,但是我用scrapy+selenium还是不行,只能取到返回的页面信息,不能进行爬取网页信息。
    回复 有任何疑惑可以回复我~ 2017-06-15 12:32:53
  • bobby 回复 提问者 Lune丶 #2
    你加我的qq 442421039 我给看看
    回复 有任何疑惑可以回复我~ 2017-06-16 08:52:05
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信