目前自己有个快到期的课程,想备份下来让自己之后学习。该网站需要登录,但是我ctrl+s后,打开的html是404如下图所示,出入很大。
网站内容是卡片形式的,正反面,有文字和视频。
我现在想最好能原样爬取备份网站内容,至少要目录化保持内容,怎么弄呢?
现在水平是前端和爬虫还没入门,想借助本课程的知识点做这个事情,不知道如何入手。
困惑的地方是:
网站需要登录,然后要点开几个链接后才能看到课程。
内容是卡片形式,而非普通的网页形式,爬取如何保持原始卡片。
爬取视频自动下载下来。
直接保存html打开后是404,不知道是不是要登录。

内容是卡片形式的,不懂js和css,不清楚这种形式的如何保持原样。


带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
了解课程