请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

如何判断网页是静态还是动态?

老师你好,
在这节课的例子中你提到了通过查看 div标签的方式来判断网页是否有js 或ajax加载,我的疑惑是:
1. Chrome - F12 - elements 和 网页源代码 出来出来的html有何区别
2. HTML和XML之间到底是什么关系?我知道一个网页的文本下载下来后是HTML,但是我们解析的时候xpath解的又是XML。XML和HTML之间可以自由的相互转换吗?为什么不能用scrapy直接在html上抓取数据?
3. 除了你提到的这种方法,业届在做爬虫的时候还会用什么方法来判断静态动态?

可能我在一些地方的理解有误,希望老师不吝赐教

正在回答 回答被采纳积分+3

1回答

bobby 2021-03-22 11:39:39
  1. 通过f12查看网页是不是静态网页不可靠,最好的方法是查看源码 通过html分析才行,在网站上f12都是执行过js之后的源码,所以对于比一下html和f12之后的html看看是否不一样就能确定是否是动态网页,一个网页也不一定是全部都是动态的,可能只有某一些元素是通过js动态加载的。 

  2. xpath最初是为xml服务的,实际上xml和html非常相似,都是有层级结构的,所以在实际执行的时候会把解析xml的原理也应用于html上,实际上你深入理解了xml以后你就会发现xml是有一种语法可以直接通过xml展示成html的,这些数据之间都可以互相转换

2 回复 有任何疑惑可以回复我~
问题已解决,确定采纳
还有疑问,暂不采纳
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号