请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

因为抓取得html数据不全root_htmls为空

我调试查看了一下抓取到的网页数据, 为什么我抓取到的网页数据不全图片描述

import re
from urllib import request

class Spider():
    url = "https://movie.douban.com/tag/#/?sort=U&range=0,10&tags=%E7%94%B5%E5%BD%B1,%E5%96%9C%E5%89%A7"
    urlpartten = 'article'# 用最简单的匹配 只能匹配到article级别
    def __fetch_content(self):
        r = request.urlopen(Spider.url)
        self.htmls = r.read()
        self.htmls = str(self.htmls, encoding='utf-8')
        return self.htmls
    def __analysis(self, html):
        root_htmls = re.findall(Spider.urlpartten, html)
        print(root_htmls)
    def go(self):
        html = self.__fetch_content()
        self.__analysis(html)

        

spider = Spider()
spider.go()

正在回答 回答被采纳积分+3

1回答

7七月 2019-03-21 12:03:28

这个抓的豆瓣吧?不同的网页,正则要自己写啊,没抓全就是正则写的不对。

0 回复 有任何疑惑可以回复我~
  • 提问者 姓萧的陈冠森 #1
    我是先用简单的关键字测试抓取到的网页, 比如说我直接用正则在找'title'这个单词, 找不到, 但是他的父级'article'却可以找到...
    用正则也一样, 可以抓到article那一整段, 但中间几乎是空的..没有影片名没有评分
    我是按照不同的网站写的不同的正则的
    回复 有任何疑惑可以回复我~ 2019-03-23 12:03:18
  • 7七月 回复 提问者 姓萧的陈冠森 #2
    我觉得这个问题你应该要更进一步的分析。首先你抓全部的html有没有?如果抓到了整个网页的html,那就是你后面正则写的不对。
    回复 有任何疑惑可以回复我~ 2019-03-23 23:38:56
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信