请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

知乎首页爬取出来的链接很少

re.match("(.*zhihu.com/question/(\d+))(/|$).*", url)

首页爬取出来的问题链接,只有三个。而且把response.text写入html中打开查看,网页不断刷新。是因为知乎的反爬虫策略么,目前有没有解决方案?

正在回答

2回答

你需要截图 我看看 scrapy的log输入是什么

0 回复 有任何疑惑可以回复我~
  • 提问者 ciphermagic #1
    老师看下截图
    回复 有任何疑惑可以回复我~ 2017-08-01 13:38:42
  • bobby 回复 提问者 ciphermagic #2
    你看一下上面热心同学的回答是否能解决你的问题?
    回复 有任何疑惑可以回复我~ 2017-08-02 09:04:12
  • 提问者 ciphermagic #3
    非常感谢!
    回复 有任何疑惑可以回复我~ 2017-08-02 13:43:32
提问者 ciphermagic 2017-08-01 13:38:14

https://img1.sycdn.imooc.com/szimg//5980138e00018f0114920686.jpg

这次爬到五个问题链接,但不应该这么少啊

0 回复 有任何疑惑可以回复我~
  • 你访问首页只是获取到你屏幕能看到所有链接,剩下的你拖动滚动条后,服务器才通过ajax请求发给你,所以你获取的链接没那么多,知乎的首页你只要往后滚会一直产生新数据的,你可以仔细观察下
    回复 有任何疑惑可以回复我~ 2017-08-01 15:28:53
  • 不停刷新,我理解是你写入的html中的js不停执行导致的,这个确实存在,不过不影响我们取第一页连接。
    回复 有任何疑惑可以回复我~ 2017-08-01 15:31:28
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信