请稍等 ...

知乎首页爬取出来的链接很少

re.match("(.*zhihu.com/question/(\d+))(/|$).*", url)

首页爬取出来的问题链接，只有三个。而且把response.text写入html中打开查看，网页不断刷新。是因为知乎的反爬虫策略么，目前有没有解决方案？

ciphermagic 2017-07-31 16:58:03

源自：6-14 item loder方式提取question - 1

1198

收起

提交取消

2回答

bobby 回答被采纳获得+3积分 2017-08-01 09:35:31

你需要截图我看看 scrapy的log输入是什么

0 回复有任何疑惑可以回复我~

收起回答

提问者 ciphermagic #1
```
老师看下截图
```
回复有任何疑惑可以回复我~ 2017-08-01 13:38:42
bobby 回复提问者 ciphermagic #2
```
你看一下上面热心同学的回答是否能解决你的问题？
```
回复有任何疑惑可以回复我~ 2017-08-02 09:04:12
提问者 ciphermagic #3
```
非常感谢！
```
回复有任何疑惑可以回复我~ 2017-08-02 13:43:32

提问者 ciphermagic 2017-08-01 13:38:14

这次爬到五个问题链接，但不应该这么少啊

0 回复有任何疑惑可以回复我~

收起回答

慕仰8103579 #1

你访问首页只是获取到你屏幕能看到所有链接，剩下的你拖动滚动条后，服务器才通过ajax请求发给你，所以你获取的链接没那么多，知乎的首页你只要往后滚会一直产生新数据的，你可以仔细观察下

回复有任何疑惑可以回复我~ 2017-08-01 15:28:53

慕仰8103579 #2

不停刷新，我理解是你写入的html中的js不停执行导致的，这个确实存在，不过不影响我们取第一页连接。

回复有任何疑惑可以回复我~ 2017-08-01 15:31:28

相似问题

学习爬取知乎首页所有question，发现提取网页源码的href解析出question的url是不能深度爬取全站所有question的url

知乎爬取answer

知乎爬取问题

爬取拉钩要登录

用scrapy-redis爬知乎报错

登录后可查看更多问答，登录/注册

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

参与学习 5831 人
解答问题 6293 个

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

了解课程

本课精华内容

问答作业

Missing argument grant_type

5.7k 30

MysqlTwistedPipline的对象没有cursor属性

3.1k 18

知乎answer提取不到

1.8k 18

为什么知乎数据导入不到MySQL数据库中？

2.0k 15

运行 scrapy crawl jobbole 报错

3.6k 15

查看更多本课问答

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

知乎首页爬取出来的链接很少

正在回答

2回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

热搜

最近搜索清空

知乎首页爬取出来的链接很少

正在回答

2回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？