请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

爬虫的进阶学习

老师好,我用老师教的知识解决了很多实际问题。现在我在实际工作的时候遇到很多url都是 js加密的,破解对方的加密方法经常让我很头疼,为了更好的解决问题,我的下一步学习应该朝着那个方向呢?是需要系统学习js和前端的知识么?还是其他的什么,老师给指条名路。

正在回答 回答被采纳积分+3

1回答

bobby 2018-01-22 10:38:45

url加密是某些参数加密了而已, 不会对整个url加密, 这些问题最有效的方式是去分析页面,有可能这个加密字符串会放到html源码中, 也有可能放到js的逻辑中, 如果放到页面的html源码中是比较简单的, 但是如果是js逻辑加密的就比较复杂了 需要自己去分析js逻辑, 还有个简单的方式就是用selenium, 如果有些逻辑你觉得分析麻烦就直接操控浏览器去模拟点击然后直接分析源码就行了, 学习爬虫最好是有前端知识,不然会遇到各种问题, 爬虫的数据爬取一般分为爬取范围广, 比如爬虫这种是爬全网, 这些就很难做到这种动态网页的抓取,因为他费精力, 要不然就是定向网站抓取,这些最好是分页页面,因为要抓取的数据很精确, 所以需要分页页面以及数据结构等等

0 回复 有任何疑惑可以回复我~
  • 提问者 慕尼黑530398 #1
    感谢老师,您说的直接操控浏览器去模拟点击分析源码指的是什么呢?,是指浏览器也可像pycharm一样进行调试么? 另外,如果要学前端的知识,应该着重的学习哪些部分呢?不然整个系统的学习前端可能需要的时间比较长,比如在慕课有关于前端的路径课程,这是一个合理的选择么?
    回复 有任何疑惑可以回复我~ 2018-01-24 20:53:59
  • bobby 回复 提问者 慕尼黑530398 #2
    意思就是说用selenium去请求页面 然后拿到执行js之后的html然后再分析html就简单了
    回复 有任何疑惑可以回复我~ 2018-01-29 14:45:36
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信