动态网站的抓取思路和方式-慕课网

1回答

bobby 2017-06-15 10:47:28

亲这个页面我看过是静态页面不需要动态页面技术，但是这个网站采用了反爬虫策略第一次请求回来的页面实际上html不是你在浏览器里面看到的页面，你用f12去调试页面就知道实际上浏览器是完成了一次跳转才到真正的页面的

from selenium import webdriver
browser = webdriver.Firefox()

browser.get('http://openlaw.cn/search/judgement/type?causeId=270cfcd1df47453d9ff4b8d40901a587&selected=true')
print (browser.page_source)

这个是我在本地的调试在print 处打个断点实际上是能看到page_source的

主要是要弄清楚这个页面的跳转是如何完成的，我需要分析一下请求如何跳转的，但是可以确定的是这个网站不是动态网站技术难度不大

0 回复有任何疑惑可以回复我~

收起回答

提问者 Lune丶 #1

我用selenium尝试过了，但是我用scrapy+selenium还是不行，只能取到返回的页面信息，不能进行爬取网页信息。

回复有任何疑惑可以回复我~ 2017-06-15 12:32:53

bobby 回复提问者 Lune丶 #2
```
你加我的qq 442421039 我给看看
```
回复有任何疑惑可以回复我~ 2017-06-16 08:52:05

动态网站的抓取思路和方式

正在回答回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

热搜

最近搜索清空