请稍等 ...

老师这个问题研究一晚上了还是没搞定。

用html = str(html,encoding=‘utf-8’)时，报
’utf-8’ codec can’t decode byte 0xd0 in position 1764: invalid continuation byte
如果去掉encoding，运行不报错，但是打印不出内容。代码如下：

import re
from urllib import request

class Spider():
    url = 'http://data.eastmoney.com/bkzj/hy.html'
    root_pattern = '<tbody>[\\s\\S]*?</tbody>'

    def __fetch_content(self):
        r = request.urlopen(Spider.url)
        html = r.read()
        # print(type(html))
        html = str(html,encoding='utf-8')
        # print(html)
        return html

    def __analysis(self,html):
        root_html = re.findall(Spider.root_pattern,html)
        # print(type(root_html))
        print(root_html[1])

    def go(self):
        html = self.__fetch_content()
        self.__analysis(html)
        pass
spider = Spider()
spider.go()

幕布斯1536738 2020-10-13 01:52:56

源自：13-8 正则分析获取名字和人数

1046

收起

提交取消

1回答

7七月 2020-10-13 13:32:11

不同的网站会有很多不一样的地方，不是所有网站都通用的。这个要根据具体网站的特点做调整，需要研究

0 回复有任何疑惑可以回复我~

相似问题

关于详细可行性研究的案例分析

麻烦请问老师一道Hackerrank上的题，求回复，谢谢

注册超级管理员问题

老师，还是不行啊，我的安装都没问题。我也百度了一下，网上说的那些方法我也试过了，都不行。甚至我还去看了一下tensorflow的官网，也无果啊！您再帮我研究研究

老师，问一下，现在非全日制研究生，大一点的公司认可度咋样

登录后可查看更多问答，登录/注册

Python3.8系统入门+进阶 (程序员必备第二语言)

参与学习 14825 人
提交作业 1262 份
解答问题 4493 个

语法精讲/配套练习+思考题/原生爬虫实战

了解课程

本课精华内容

问答作业

老师，学习python对于文化程度相对低一点的，比如高中学历的，或者专科非计算机专业的人，以后的就业会有什么困难？怎么去克服好？学习应该往那个方向方便就业呢？

6.7k 7

爬虫方向的学习路线

3.0k 3

评论区消耗金为1003和914两种不同答案的原因

2.8k 5

VScode 安装完毕，插件也下载好没问题。但是没有出现pylint 绿色的波浪线。是设置问题么？

4.7k 22

小兄弟,我要投诉你了,你每一节视频有多时间是讲课的?都是跟别人聊天,我花钱是来学习的,不是来跟你聊天的,希望你尊重别人的宝贵时间.

3.0k 19

查看更多本课问答

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

扫描二维码
关注慕课网微信公众号