请稍等 ...

爬取的html错误

老师，我这里碰到一点问题，在requests.get()方法中，get到的是F12的Sources而不是Elemeuts ,并且每一个论坛的Sources还不一样。

以下是我的代码：

def parse_list(url):
    res_text=requests.get(url).text
    sel=Selector(text=res_text)
    all_trs=sel.xpath('//div[@class="user-tabs user-tabs-1580"]//div[@class=tab_list_item]')[3:]
    print(all_trs)
    print(len(all_trs))
    for tr in all_trs:
        topic = Topic()
        if tr.xpath("//div/div[3]/div/div/div[2]/span/text()").extract():
            score = tr.xpath("//div/div[3]/div/div/div[2]/span/text()").extract()[0]
            topic.score =score
        topic_url = parse.urljoin(domain, tr.xpath("//div/div[2]/a/@href").extract()[0])
        topic_title = tr.xpath("//div/div[2]/a/span/text()").extract()[0]
        answer_nums = tr.xpath("//div/div[3]/div/div/div[3]/span/span/text()").extract()[0]
        click_nums =tr.xpath("//div/div[3]/div/div/div[1]/span/text()").extract()[0]
        topic.id = int(topic_url.split("/")[-1])
        topic.title = topic_title
        topic.click_nums = int(click_nums)
        topic.answer_nums = int(answer_nums)
        topic.save(force_insert=True)

这里的Xpath跟您的有所不同，因为csdn改版了。
是要直接分析Sources吗？
希望您能给予答复。

李_冉 2021-09-08 09:08:46

源自：14-12 获取和解析详情页 - 1

619

收起

提交取消

1回答

bobby 2021-09-10 09:56:54

所有的http请求库直接请求到的都是源码中的部分而不是f12的部分，不过这样也不一定，f12是执行js之后的html内容，如果这个页面没有js去改变html结构那么这个时候两者的内容是一致的，课程中讲解过这点的

0 回复有任何疑惑可以回复我~

收起回答

提问者李_冉 #1
```
现在csdn变成动态网页了，显然有js
```
回复有任何疑惑可以回复我~ 2021-09-10 11:14:52

bobby 回复提问者李_冉 #2

csdn已经改版加强了反爬手段，最新的破解源码已经上传到github上了，我这几天正在重新录制csdn的章节，会更加详细说明具体细节，一周左右会上线

回复有任何疑惑可以回复我~ 2021-09-23 16:51:31

提问者李_冉 #3
```
好的，谢谢
```
回复有任何疑惑可以回复我~ 2021-09-23 18:35:03

相似问题

知乎爬取302错误，无法爬取

知乎爬取问题

只爬取，不处理

爬取西刺500错误

爬取拉钩要登录

登录后可查看更多问答，登录/注册

Python爬虫工程师实战大数据时代必备

参与学习 2406 人
解答问题 1158 个

慕课网严选精品教程，高质量内容+服务！

了解课程

本课精华内容

问答作业

代码问题

1.9k 20

老师我的jdproductPageComments 返回的是空白页什么也没有怎么办

2.2k 17

代码问题这个错误怎么办

1.8k 17

老师这个错误怎么解决

1.7k 17

使用selenium点击后返回异常数据

2.0k 13

查看更多本课问答

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

爬取的html错误

正在回答回答被采纳积分+3

1回答

相似问题