请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

老师,爬取备份需要账号登录的且特殊格式的网站失败,有什么思路吗?

目前自己有个快到期的课程,想备份下来让自己之后学习。该网站需要登录,但是我ctrl+s后,打开的html是404如下图所示,出入很大。

网站内容是卡片形式的,正反面,有文字和视频。

我现在想最好能原样爬取备份网站内容,至少要目录化保持内容,怎么弄呢?

现在水平是前端和爬虫还没入门,想借助本课程的知识点做这个事情,不知道如何入手。

困惑的地方是:

  1. 网站需要登录,然后要点开几个链接后才能看到课程。

  2. 内容是卡片形式,而非普通的网页形式,爬取如何保持原始卡片。

  3. 爬取视频自动下载下来。

直接保存html打开后是404,不知道是不是要登录。

//img1.sycdn.imooc.com//szimg/5b8b02780001003b10390611.jpg

内容是卡片形式的,不懂js和css,不清楚这种形式的如何保持原样。

//img1.sycdn.imooc.com//szimg/5b8b0278000176c209380540.jpg

//img1.sycdn.imooc.com//szimg/5b8b027800017da308730553.jpg


正在回答

1回答

bobby 2018-09-03 18:32:44

首先把如果网站的数据是动态的 比如是ajax请求返回来的,那你保存html的时候 这些数据是没有的,这个是动态网页技术 你可以看看后面的动态网站抓取技术再看看能不能满足你的需求

1 回复 有任何疑惑可以回复我~
  • 提问者 神经旷野舞者 #1
    谢谢老师,这种密码登陆点击操作属于ajax?
    回复 有任何疑惑可以回复我~ 2018-09-03 18:41:26
  • bobby 回复 提问者 神经旷野舞者 #2
    我没有看到网页 不能确定
    回复 有任何疑惑可以回复我~ 2018-09-04 09:46:28
问题已解决,确定采纳
还有疑问,暂不采纳
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号