请稍等 ...

老师，运行程序，进不去PARSE方法，为什么

-- coding: utf-8 --

import re
from urllib import parse
import scrapy

class ZhihuSpider(scrapy.Spider):
name = 'zhihu’
allowed_domains = [‘www.zhihu.com’]
start_urls = [‘https://www.zhihu.com/’]

headers = {
    "HOST": "www.zhihu.com",
    "Referer": "https://www.zhihu.com",
    'User-Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.92 Safari/537.36"
}
def parse(self, response):

    all_urls = response.css("a::attr(href)").extract()
    all_urls = [parse.urljoin(response.url, url) for url in all_urls]
    all_urls = filter(lambda x: True if x.startswith("https") else False, all_urls)
    for url in all_urls:
        print(url)
        match_obj = re.match("(.*zhihu.com/question/(\d+))(/|$).*", url)
        if match_obj:
            # 如果提取到question相关的页面则下载后交由提取函数进行提取
            request_url = match_obj.group(1)
            yield scrapy.Request(request_url, headers=self.headers, callback=self.parse_question)
        else:
            # 如果不是question页面则直接进一步跟踪
            yield scrapy.Request(url, headers=self.headers, callback=self.parse)

三肥牛元气 2018-11-02 17:04:56

源自：6-13 知乎分析以及数据表设计 - 2

1861

收起

提交取消

1回答

bobby 2018-11-03 10:17:35

你需要看一下console中的输出看看这个url返回的状态码是否为非200状态码？导致了无法进入parse方法

0 回复有任何疑惑可以回复我~

收起回答

提问者三肥牛元气 #1

2018-11-03 10:37:05 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <400 https://www.zhihu.com/>: HTTP status code is not handled or not allowed

老师这要怎么处理

回复有任何疑惑可以回复我~ 2018-11-03 10:39:20

提问者三肥牛元气 #2
```
debug下执行到parse就不会执行进去了
```
回复有任何疑惑可以回复我~ 2018-11-03 10:59:57

bobby 回复提问者三肥牛元气 #3

这是400错误表示的是你的post参数错误 你是否没有设置headers？ https://git.imooc.com/coding-92/coding-92/src/master/ArticleSpider/ArticleSpider/spiders 你可以拷贝一下我这里提供的源码

回复有任何疑惑可以回复我~ 2018-11-05 13:23:00

点开查看后面4条评论

相似问题

老师启动jar 除了nohup 还有别的方法启动吗？生产环境下怎么部署java启动？

为什么插入排序会远远由于归并排序？

同样一个数组(拷贝的数组)两次排序，所用的时间为什么会不一样呢？(好像冒泡排序的优化，跟插入排序有些相似呢）

悟空老师，那个验证正在运行的线程是 RUNNABLE 状态的话，为什么不直接在 run（）方法中打印呢？

我用的selenium登录的然后debug进不去parse，第一个执行的不是start_requests而是parse，这是怎么解决

登录后可查看更多问答，登录/注册

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

参与学习 5831 人
解答问题 6293 个

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

了解课程

本课精华内容

问答作业

Missing argument grant_type

5.6k 30

MysqlTwistedPipline的对象没有cursor属性

3.0k 18

知乎answer提取不到

1.7k 18

为什么知乎数据导入不到MySQL数据库中？

1.9k 15

运行 scrapy crawl jobbole 报错

3.5k 15

查看更多本课问答

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

老师，运行程序，进不去PARSE方法，为什么

-- coding: utf-8 --

正在回答回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

热搜

最近搜索清空

老师，运行程序，进不去PARSE方法，为什么

-- coding: utf-8 --

正在回答 回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

正在回答回答被采纳积分+3