爬虫的进阶学习-慕课网

1回答

bobby 2018-01-22 10:38:45

url加密是某些参数加密了而已，不会对整个url加密，这些问题最有效的方式是去分析页面，有可能这个加密字符串会放到html源码中，也有可能放到js的逻辑中，如果放到页面的html源码中是比较简单的，但是如果是js逻辑加密的就比较复杂了需要自己去分析js逻辑，还有个简单的方式就是用selenium，如果有些逻辑你觉得分析麻烦就直接操控浏览器去模拟点击然后直接分析源码就行了，学习爬虫最好是有前端知识，不然会遇到各种问题，爬虫的数据爬取一般分为爬取范围广，比如爬虫这种是爬全网，这些就很难做到这种动态网页的抓取，因为他费精力，要不然就是定向网站抓取，这些最好是分页页面，因为要抓取的数据很精确，所以需要分页页面以及数据结构等等

0 回复有任何疑惑可以回复我~

收起回答

提问者慕尼黑530398 #1

感谢老师，您说的直接操控浏览器去模拟点击分析源码指的是什么呢？，是指浏览器也可像pycharm一样进行调试么？ 另外，如果要学前端的知识，应该着重的学习哪些部分呢？不然整个系统的学习前端可能需要的时间比较长，比如在慕课有关于前端的路径课程，这是一个合理的选择么？

回复有任何疑惑可以回复我~ 2018-01-24 20:53:59

bobby 回复提问者慕尼黑530398 #2

意思就是说用selenium去请求页面 然后拿到执行js之后的html然后再分析html就简单了

回复有任何疑惑可以回复我~ 2018-01-29 14:45:36

爬虫的进阶学习

正在回答回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

热搜

最近搜索清空