请稍等 ...

all_urls一直追踪不到符合正则表达式的url

def parse(self, response):
# 提取出html页面中的所有url，并跟踪这些url进行进一步爬取
# 如果提取的url中格式为/question/xxx 就下载之后直接进入解析函数
all_urls = response.css(" a::attr(href)").extract()
# 为所有的urls添加域名
all_urls = [parse.urljoin(response.url, url) for url in all_urls]
# 过滤url
all_urls = filter(lambda x: True if x.startwith("https") else False, all_urls)

for url in all_urls:
# if url.startwith("https")
match_obj = re.match("(.*zhihu.com/question/(\d+))(/|$).* ", url)
if match_obj:
# 如果提取到question相关的页面后交给提取函数进行提取
request_url = match_obj.group(1)
question_id = match_obj.group(2)
# 提交给下载器
yield scrapy.Request(request_url, headers=self.header, callback=self.parse_question)
else:
# 如果不是question页面则直接进一步跟踪
yield scrapy.Request(url, headers=self.headers, callback=self.parse)

qq_擦肩而过再回首_0 2018-04-11 16:24:36

源自：6-13 知乎分析以及数据表设计 - 2

1013

收起

提交取消

1回答

bobby 2018-04-12 11:24:24

你先提取出url 我看看是否和你的正则表达式有匹配的？有没有可能是因为你的正则表达式有问题？你可以随意获取一个html，然后用你的正则表达式自己用py脚本去测试一下看看你的正则表达式是否正确

0 回复有任何疑惑可以回复我~

收起回答

提问者 qq_擦肩而过再回首_0 #1

仔细看了代码，发现请求的网址是知乎的登录地址，获取到all_urls为空，调试了之后，就没问题了

回复有任何疑惑可以回复我~ 2018-04-13 10:00:02

bobby 回复提问者 qq_擦肩而过再回首_0 #2
```
好的，
```
回复有任何疑惑可以回复我~ 2018-04-16 10:08:46

相似问题

什么是正则表达式？

正则表达式看不太懂

多属性标签正则表达式

python3.6+Django2.2，路由用path怎么写

提取出来的url是列表里的元素，每个元素加起来才是完整的url，有大神帮忙么。。

登录后可查看更多问答，登录/注册

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

参与学习 5827 人
解答问题 6293 个

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

了解课程

本课精华内容

问答作业

Missing argument grant_type

5.3k 30

MysqlTwistedPipline的对象没有cursor属性

2.9k 18

知乎answer提取不到

1.5k 18

为什么知乎数据导入不到MySQL数据库中？

1.8k 15

运行 scrapy crawl jobbole 报错

3.4k 15

查看更多本课问答

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

all_urls一直追踪不到符合正则表达式的url

正在回答回答被采纳积分+3

1回答

相似问题