请稍等 ...

middleware中selenium模拟点击分页时，每页pagesource传递

class SeleniumMiddleware(object):
    def process_request(self, request, spider):
        if spider.name == 'gome':
            gome_type = request.meta.get('gomeType', 0)
            log.msg('gome type: %s' % gome_type)
            spider.browser.get(request.url)
            if gome_type == 2:
                while True:
                    spider.browser_wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="min-pager-number"]')))
                    # TODO 分页数据处理
                    pager_souce = spider.browser.page_source
                    pager_text = spider.browser.find_element_by_xpath('//*[@id="min-pager-number"]').text()
                    pager_list = re.findall(u"\d+", pager_text)
                    if len(pager_list) == 2 and int(pager_list[0]) < int(pager_list[1]):
                        spider.browser.find_element_by_xpath('//*[@id="mp-next"]').click()
                    else:
                        break

            return HtmlResponse(url=spider.browser.current_url, body=spider.browser.page_source, encoding="utf-8",
                                request=request)
        pass

现在的问题是middleware中只能返回一次pagesource，如果pagesource的解析和存储都在middleware中，那scrapy用不用无所谓了。。

hi_Rengar 2019-03-25 18:33:15

源自：9-4 selenium集成到scrapy中

1216

收起

提交取消

1回答

bobby 2019-03-27 16:29:29

当然可以把解析和存储都放在middleware中，但是你这样代码的逻辑就混淆了。middleware中就是用来处理response的，后续的处理逻辑应该放在对应的地方，即使你自己写代码不也是需要将这些逻辑分离吗？如果放在一起代码的后期维护会很痛苦的

0 回复有任何疑惑可以回复我~

收起回答

提问者 hi_Rengar #1

现在的问题是,有很多页数据,但是middleware只能return 一页数据

回复有任何疑惑可以回复我~ 2019-03-29 11:07:33

bobby 回复提问者 hi_Rengar #2

你的下一页数据应该是在下一轮page处理的时候返回 还是说你想在一个url的response返回多个页面？

回复有任何疑惑可以回复我~ 2019-04-01 10:54:27

提问者 hi_Rengar 回复 bobby #3
```
在一个url的response返回多个页面
```
回复有任何疑惑可以回复我~ 2019-04-04 18:42:53

点开查看后面3条评论

相似问题

分页出现问题

selenium模拟微博登录后，对某一个url请求，返回来的source_page仍没有加载script脚本。

如何获取下一页内容

selenium 集成到scripy后，点击翻页问题

分页功能代码有错

登录后可查看更多问答，登录/注册

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

参与学习 5831 人
解答问题 6293 个

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

了解课程

本课精华内容

问答作业

Missing argument grant_type

5.6k 30

MysqlTwistedPipline的对象没有cursor属性

3.0k 18

知乎answer提取不到

1.6k 18

为什么知乎数据导入不到MySQL数据库中？

1.9k 15

运行 scrapy crawl jobbole 报错

3.5k 15

查看更多本课问答

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

middleware中selenium模拟点击分页时，每页pagesource传递

正在回答回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

热搜

最近搜索清空

middleware中selenium模拟点击分页时，每页pagesource传递

正在回答 回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

正在回答回答被采纳积分+3