请稍等 ...

因为抓取得html数据不全root_htmls为空

我调试查看了一下抓取到的网页数据, 为什么我抓取到的网页数据不全图片描述

import re
from urllib import request

class Spider():
    url = "https://movie.douban.com/tag/#/?sort=U&range=0,10&tags=%E7%94%B5%E5%BD%B1,%E5%96%9C%E5%89%A7"
    urlpartten = 'article'# 用最简单的匹配 只能匹配到article级别
    def __fetch_content(self):
        r = request.urlopen(Spider.url)
        self.htmls = r.read()
        self.htmls = str(self.htmls, encoding='utf-8')
        return self.htmls
    def __analysis(self, html):
        root_htmls = re.findall(Spider.urlpartten, html)
        print(root_htmls)
    def go(self):
        html = self.__fetch_content()
        self.__analysis(html)

        

spider = Spider()
spider.go()

姓萧的陈冠森 2019-03-21 11:39:25

源自：13-7 正则分析HTML

1132

收起

提交取消

1回答

7七月 2019-03-21 12:03:28

这个抓的豆瓣吧？不同的网页，正则要自己写啊，没抓全就是正则写的不对。

0 回复有任何疑惑可以回复我~

收起回答

提问者姓萧的陈冠森 #1

我是先用简单的关键字测试抓取到的网页, 比如说我直接用正则在找'title'这个单词, 找不到, 但是他的父级'article'却可以找到...
用正则也一样, 可以抓到article那一整段, 但中间几乎是空的..没有影片名没有评分
我是按照不同的网站写的不同的正则的

回复有任何疑惑可以回复我~ 2019-03-23 12:03:18

7七月回复提问者姓萧的陈冠森 #2

我觉得这个问题你应该要更进一步的分析。首先你抓全部的html有没有？如果抓到了整个网页的html，那就是你后面正则写的不对。

回复有任何疑惑可以回复我~ 2019-03-23 23:38:56

相似问题

内容管理平台数据抓取，深度优先模式抓取问题

直播数据抓取？

rule中follow参数为true。

抓取这种招聘网站会有风险吗？

请问下学完该视频可以抓取美菜网的app数据不

登录后可查看更多问答，登录/注册

Python3.8系统入门+进阶 (程序员必备第二语言)

参与学习 14862 人
提交作业 1270 份
解答问题 4499 个

语法精讲/配套练习+思考题/原生爬虫实战

了解课程

本课精华内容

问答作业

老师，学习python对于文化程度相对低一点的，比如高中学历的，或者专科非计算机专业的人，以后的就业会有什么困难？怎么去克服好？学习应该往那个方向方便就业呢？

6.8k 7

爬虫方向的学习路线

3.1k 3

评论区消耗金为1003和914两种不同答案的原因

2.9k 5

VScode 安装完毕，插件也下载好没问题。但是没有出现pylint 绿色的波浪线。是设置问题么？

4.8k 22

小兄弟,我要投诉你了,你每一节视频有多时间是讲课的?都是跟别人聊天,我花钱是来学习的,不是来跟你聊天的,希望你尊重别人的宝贵时间.

3.0k 19

查看更多本课问答

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

因为抓取得html数据不全root_htmls为空

正在回答回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

老师，学习python对于文化程度相对低一点的，比如高中学历的，或者专科非计算机专业的人，以后的就业会有什么困难？怎么去克服好？学习应该往那个方向方便就业呢？

爬虫方向的学习路线

评论区消耗金为1003和914两种不同答案的原因

VScode 安装完毕，插件也下载好没问题。但是没有出现pylint 绿色的波浪线。是设置问题么？

小兄弟,我要投诉你了,你每一节视频有多时间是讲课的?都是跟别人聊天,我花钱是来学习的,不是来跟你聊天的,希望你尊重别人的宝贵时间.

目的：装饰器的理解

目的：面向对象的理解

目的：理解循环

目的：了解字符串

目的：计算机进制基础

热搜

最近搜索清空

因为抓取得html数据不全root_htmls为空

正在回答 回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

老师 ，学习python对于文化程度相对低一点的，比如高中学历的，或者专科非计算机专业的人，以后的就业会有什么困难？怎么去克服好？学习应该往那个方向方便就业呢？

爬虫方向的学习路线

评论区消耗金为1003和914两种不同答案的原因

VScode 安装完毕，插件也下载好没问题。但是没有出现pylint 绿色的波浪线。是设置问题么？

小兄弟,我要投诉你了,你每一节视频有多时间是讲课的?都是跟别人聊天,我花钱是来学习的,不是来跟你聊天的,希望 你尊重别人的宝贵时间.

目的：装饰器的理解

目的：面向对象的理解

目的：理解循环

目的：了解字符串

目的：计算机进制基础

正在回答回答被采纳积分+3

老师，学习python对于文化程度相对低一点的，比如高中学历的，或者专科非计算机专业的人，以后的就业会有什么困难？怎么去克服好？学习应该往那个方向方便就业呢？

小兄弟,我要投诉你了,你每一节视频有多时间是讲课的?都是跟别人聊天,我花钱是来学习的,不是来跟你聊天的,希望你尊重别人的宝贵时间.