采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
原因是,加点代表取当前元素为根节点向下查找元素,而不加点是以整个页面为根元素向下查找的。因为你没有加点,所以总是从根节点找第一个,而不是你所需要的从编写好的selectorlist里找第一个
老哥,找到解决方法了,应该这样
image_url=post_node.xpath('.//div[@class="entry_summary"]/a/img/@src').extract_first("") post_url=post_node.xpath('.//h2[@class="news_entry"]/a/@href').extract_first("")
是的, xpath的新版本如果从当前节点遍历需要在前面加点,补录的课程中提到过这点,其他的同学的提问中也回复过
老哥,怎么解决的?代码看看
你可以尝试一下css选择器看看是否仍然有这个问题
css是可以的,xpath不行
你把完整的spider代码贴一下我本地测试一下看看呢
我擦,原来如此,坑死我了。
登录后可查看更多问答,登录/注册
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
4.7k 30
2.5k 18
1.1k 18
1.3k 15
2.7k 15