请稍等 ...

老师，爬取备份需要账号登录的且特殊格式的网站失败，有什么思路吗？

目前自己有个快到期的课程，想备份下来让自己之后学习。该网站需要登录，但是我ctrl+s后，打开的html是404如下图所示，出入很大。

网站内容是卡片形式的，正反面，有文字和视频。

我现在想最好能原样爬取备份网站内容，至少要目录化保持内容，怎么弄呢？

现在水平是前端和爬虫还没入门，想借助本课程的知识点做这个事情，不知道如何入手。

困惑的地方是：

网站需要登录，然后要点开几个链接后才能看到课程。
内容是卡片形式，而非普通的网页形式，爬取如何保持原始卡片。
爬取视频自动下载下来。

直接保存html打开后是404，不知道是不是要登录。

//img1.sycdn.imooc.com//szimg/5b8b02780001003b10390611.jpg

内容是卡片形式的，不懂js和css，不清楚这种形式的如何保持原样。

//img1.sycdn.imooc.com//szimg/5b8b0278000176c209380540.jpg

//img1.sycdn.imooc.com//szimg/5b8b027800017da308730553.jpg

神经旷野舞者 2018-09-02 05:21:24

源自：3-1 技术选型爬虫能做什么

760

收起

提交取消

1回答

bobby 2018-09-03 18:32:44

首先把如果网站的数据是动态的比如是ajax请求返回来的，那你保存html的时候这些数据是没有的，这个是动态网页技术你可以看看后面的动态网站抓取技术再看看能不能满足你的需求

1 回复有任何疑惑可以回复我~

收起回答

提问者神经旷野舞者 #1
```
谢谢老师，这种密码登陆点击操作属于ajax？
```
回复有任何疑惑可以回复我~ 2018-09-03 18:41:26
bobby 回复提问者神经旷野舞者 #2
```
我没有看到网页 不能确定
```
回复有任何疑惑可以回复我~ 2018-09-04 09:46:28

相似问题

怎么爬取一个网站里面的邮箱

基于CrawlSpider，同一份代码爬取多个网站的数据，如果限制不爬取外链网站数据

爬取拉钩要登录

解决反爬问题

cookie池如果需要多个cookie，是否需要多个账号分别登陆获取不同的cookie

登录后可查看更多问答，登录/注册

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

参与学习 5831 人
解答问题 6293 个

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

了解课程

本课精华内容

问答作业

Missing argument grant_type

5.7k 30

MysqlTwistedPipline的对象没有cursor属性

3.0k 18

知乎answer提取不到

1.7k 18

为什么知乎数据导入不到MySQL数据库中？

1.9k 15

运行 scrapy crawl jobbole 报错

3.5k 15

查看更多本课问答

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

老师，爬取备份需要账号登录的且特殊格式的网站失败，有什么思路吗？

正在回答

1回答

相似问题