采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
老师你好,请问你几个问题!
1.scrapy有没有什么方法针对知乎问题的不同回答进行进一步处理,去除标签,只保留文字部分入库。
2. 对于知乎问题的一些回答中含有图片的,如何针对具体回答提取图片并下载保存,希望老师能提供一些思路和方法。
取出html标签我会在拉钩网的抓取中介绍。 python内置的有库可以一键去除所有的html标签
图片下载比较容易,你只需要按照cnblogs中介绍的,你使用一个xpath语句可以提取所有的img标签中的图片url,你只需要将这些url放入到指定的item中的一个图片的url即可
老师,现在知乎用户的回答的图片URL在JSON的data的content中,用xpath提取不到,要用正则表达式来获取
老师。方便加下我QQ嘛? 1624664769
加你了
登录后可查看更多问答,登录/注册
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
5.5k 30
2.9k 18
1.6k 18
1.8k 15
3.4k 15
购课补贴联系客服咨询优惠详情
慕课网APP您的移动学习伙伴
扫描二维码关注慕课网微信公众号