csdn 网页代码发生变化-慕课网

<span class="green">[置顶]</span> <a href="/forums/placard" target="_blank" class="forums_t">社区公告・</a> <a href="/topics/392570959" class="forums_title title_style_red title_style_bold" target="_blank" title="送！机械键盘、盖泡面Kindle、西二旗防堵山地车、真无线AirPods、找Bug雨伞，CSDN百万粉丝狂欢！">送！机械键盘、盖泡面Kindle、西二旗防堵山地车、真无线AirPods、找Bug雨伞，CSDN百万粉丝狂欢！</a> <span class="red">[推荐]</span>

2回答

云甡回答被采纳获得+3积分 2019-06-14 09:34:30

只是前两条多出了“公告”“程序人生”这个a标签，后面依然是只有一个a标签的。第一个a标签的“公告”“程序人生”并没有实质内容，可以放弃掉吧？我用的这个语句“ topic_url = parse.urljoin(domain, tr.xpath(".//td[3]/a[last()]/@href").extract()[0])”只获取每一条帖子标题的最后一个a标签的内容，并且可以使得只有一个a标签的也能获取到，不报错。

2 回复有任何疑惑可以回复我~

收起回答

云甡 #1
```
a[last()]    ——获取最后一个a标签
```
回复有任何疑惑可以回复我~ 2019-06-14 09:36:36
提问者朗月清风 #2
```
非常感谢！ 谢谢您的回答，问题已解决。
```
回复有任何疑惑可以回复我~ 2019-06-14 11:09:48

提问者朗月清风回复云甡 #3

谢谢你，您的回答对我帮助很大。因为这个都抓狂了，差点从入门到放弃，看来还可以再抢救一下。再次感谢！

回复有任何疑惑可以回复我~ 2019-06-14 11:19:19

提问者朗月清风 2019-06-14 11:15:27

不知道什么原因，还没有写抓取下一页的代码。

运行程序时，第1页还没抓完，不知道什么原因，会抓取第2页的内容。

def parse_list(url):
res_text = requests.get(url).text
sel = Selector(text=res_text)
all_trs = sel.xpath("//table[@class='forums_tab_table']//tr")[2:]
for tr in all_trs:
topic = Topic()

if tr.xpath(".//td[1]/span/text()").extract():
status = tr.xpath(".//td[1]/span/text()").extract()[0]
topic.status = status
if tr.xpath(".//td[2]/em/text()").extract():
score = tr.xpath(".//td[2]/em/text()").extract()[0]
topic.score = int(score)
topic_url = parse.urljoin(domain, tr.xpath(".//td[3]/a[last()]/@href").extract()[0])
topic_title = tr.xpath(".//td[3]/a[last()]/text()").extract()[0]
author_url = parse.urljoin(domain, tr.xpath(".//td[4]/a/@href").extract()[0])
author_id = author_url.split("/")[-1]
create_time = tr.xpath(".//td[4]/em/text()").extract()[0]
create_time = datetime.strptime(create_time, "%Y-%m-%d %H:%M")
answer_info = tr.xpath(".//td[5]/span/text()").extract()[0]
answer_nums = answer_info.split("/")[0]
click_nums = answer_info.split("/")[1]
last_time_str = tr.xpath(".//td[6]/em/text()").extract()[0]
last_time = datetime.strptime(last_time_str, "%Y-%m-%d %H:%M")

topic.id = int(topic_url.split("/")[-1])
topic.title = topic_title
topic.author = author_id
topic.click_nums = int(click_nums)
topic.answer_nums = int(answer_nums)
topic.create_time = create_time
topic.last_answer_time = last_time
existed_topics = Topic.select().where(Topic.id == topic.id)
if existed_topics:
topic.save()
else:
topic.save(force_insert=True)

0 回复有任何疑惑可以回复我~

收起回答

提问者朗月清风 #1

我明白了，是按类抓取的，被自己的智商感动。
听说大脑是个好东西我想有一个！

回复有任何疑惑可以回复我~ 2019-06-14 11:35:29

bobby 回复提问者朗月清风 #2
```
好的，加油
```
回复有任何疑惑可以回复我~ 2019-06-14 18:33:17

csdn 网页代码发生变化

正在回答

2回答

相似问题

请选择置顶位置

本课精华内容

代码问题

老师我的jdproductPageComments 返回的是空白页什么也没有怎么办

代码问题这个错误怎么办

老师这个错误怎么解决

使用selenium点击后返回异常数据

词云热力图应该如何实现？

【讨论题】滑动验证码的解决办法

如果合适的话使用 asyncio 做爬虫的优势是什么？

热搜

最近搜索清空