请稍等 ...

如何判断网页是静态还是动态？

老师你好，
在这节课的例子中你提到了通过查看 div标签的方式来判断网页是否有js 或ajax加载，我的疑惑是：
1. Chrome - F12 - elements 和网页源代码出来出来的html有何区别
2. HTML和XML之间到底是什么关系？我知道一个网页的文本下载下来后是HTML，但是我们解析的时候xpath解的又是XML。XML和HTML之间可以自由的相互转换吗？为什么不能用scrapy直接在html上抓取数据？
3. 除了你提到的这种方法，业届在做爬虫的时候还会用什么方法来判断静态动态？

可能我在一些地方的理解有误，希望老师不吝赐教

weixin_慕莱坞5034374 2021-03-20 15:06:19

源自：14-2 需求分析

3225

收起

提交取消

1回答

bobby 2021-03-22 11:39:39

通过f12查看网页是不是静态网页不可靠，最好的方法是查看源码通过html分析才行，在网站上f12都是执行过js之后的源码，所以对于比一下html和f12之后的html看看是否不一样就能确定是否是动态网页，一个网页也不一定是全部都是动态的，可能只有某一些元素是通过js动态加载的。
xpath最初是为xml服务的，实际上xml和html非常相似，都是有层级结构的，所以在实际执行的时候会把解析xml的原理也应用于html上，实际上你深入理解了xml以后你就会发现xml是有一种语法可以直接通过xml展示成html的，这些数据之间都可以互相转换

2 回复有任何疑惑可以回复我~

收起回答