代码如下:
post_nodes = response.xpath('//div[@id="news_list"]/div[@class="news_block"]')
# post_nodes = response.css('#news_list .news_block')
for post_node in post_nodes:
# print(post_node)
image_url = post_node.xpath('//div[@class="entry_summary"]/a/img/@src').extract()
image_url = post_node.css('.entry_summary a img::attr(src)').extract()
用path结果如下:
用css结果如下:
问题:
从结果分析是css正确的应该是每次遍历只能获取一个值
但是为什么用xpath却获取了所有的值,这明显是不对的
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
了解课程