请稍等 ...

老师yield callback = self.parse_drtail 无法进入parse_detail函数

代码
import scrapy
from scrapy import Request
from urllib import parse
import re
import requests
import json

class FirstscrapySpider(scrapy.Spider):
name = 'firstscrapy’
allowed_domains = [‘https://www.cnblogs.com/’]
start_urls = [‘https://news.cnblogs.com/’]

def parse(self, response):
    # 1 获取新闻列表页的url,并交给scrapy下载后调用相应的解析方法
    # 2 获取下一页的url交给scrapy下载，下载完成后继续跟进
    print('start----------------------------------------------')
    post_nodes = response.xpath('//div[@id="news_list"]/div[@class="news_block"]')[:1]
    for post_node in post_nodes:
        image_url = post_node.xpath('//div[@class="entry_summary"]/a/img/@src').extract_first('')
        news_url = post_node.xpath('//h2[@class="news_entry"]/a/@href').extract_first('')
        yield Request(url=parse.urljoin(response.url, news_url), meta={'front_image_url': image_url}, callback=self.parse_detail)

    #获取下一页的url
    next_url = response.xpath('//a[contains(text(), "Next >")]/@href').extract_first('')
    yield Request(url=parse.urljoin(response.url, next_url), callback=self.parse)

def parse_detail(self, response):
    print('进入arse_detail')
    match_re = re.match('.*?(\d+)', response.url)
    if match_re:
        title = response.xpath('//div[@id="news_title"]/a/text()').extract_first('')
        create_date = response.xpath('//div[@id="news_info"]/span[@class="time"]/text()').extract_first('')
        content = response.xpath('//div[@id="news_body"]').extract()
        tag_list = response.xpath('//div[@class="news_tags"]/a/text()').extract()
        tags = ','.join(tag_list)
        post_id = match_re.group(1)
        yield Request(url=parse.urljoin(response.url, '/NewsAjax/GetAjaxNewsInfo?contentId={}'.format(post_id)), callback=parse.nums)


def parse_nums(self, response):
    js = json.loads(response.text)
    comment_nums = js['CommentCount']
    praise_nums = js['DiggCount']
    review_nums = js['TotalView']

我的可乐说 2020-09-26 16:01:29

源自：4-10 编写spider完成抓取过程 - 2

1390

收起

提交取消

1回答

bobby 2020-09-28 10:08:15

你把所有的其他地方断点取消只在parse_detail中打断点试试而且这里先注释掉

0 回复有任何疑惑可以回复我~

收起回答

提问者我的可乐说 #1

老师，我发现是allowed_domains = [‘https://www.cnblogs.com/’]把我的Requests过滤掉了，我把allowed_domains改为news.cnblogs.com就可以了，不知道是为什么

回复有任何疑惑可以回复我~ 2020-09-28 10:20:48

bobby 回复提问者我的可乐说 #2
```
好的，allowed_domains 是域名 不能添加http这种头
```
回复有任何疑惑可以回复我~ 2020-09-29 10:24:28

相似问题

在解析的过程，有多个url被yield跟进爬取时，如何保证都解析完成，才被yield给pipelines

调试进入不了parse_detail函数

parse函数调用另一个函数，只能通过callback吗？

急，项目1无法debug到parse_detail

yield 和 return的问题

登录后可查看更多问答，登录/注册

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

参与学习 5827 人
解答问题 6293 个

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

了解课程

本课精华内容

问答作业

Missing argument grant_type

5.3k 30

MysqlTwistedPipline的对象没有cursor属性

2.9k 18

知乎answer提取不到

1.5k 18

为什么知乎数据导入不到MySQL数据库中？

1.8k 15

运行 scrapy crawl jobbole 报错

3.4k 15

查看更多本课问答

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

老师yield callback = self.parse_drtail 无法进入parse_detail函数

正在回答回答被采纳积分+3

1回答

相似问题