采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
re.match("(.*zhihu.com/question/(\d+))(/|$).*", url)
首页爬取出来的问题链接,只有三个。而且把response.text写入html中打开查看,网页不断刷新。是因为知乎的反爬虫策略么,目前有没有解决方案?
你需要截图 我看看 scrapy的log输入是什么
老师看下截图
你看一下上面热心同学的回答是否能解决你的问题?
非常感谢!
这次爬到五个问题链接,但不应该这么少啊
你访问首页只是获取到你屏幕能看到所有链接,剩下的你拖动滚动条后,服务器才通过ajax请求发给你,所以你获取的链接没那么多,知乎的首页你只要往后滚会一直产生新数据的,你可以仔细观察下
不停刷新,我理解是你写入的html中的js不停执行导致的,这个确实存在,不过不影响我们取第一页连接。
登录后可查看更多问答,登录/注册
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
4.7k 30
2.5k 18
1.1k 18
1.3k 15
2.7k 15