请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

关于知乎图片下载和问答内容处理的一些疑问

老师你好,请问你几个问题!

1.scrapy有没有什么方法针对知乎问题的不同回答进行进一步处理,去除标签,只保留文字部分入库。

2. 对于知乎问题的一些回答中含有图片的,如何针对具体回答提取图片并下载保存,希望老师能提供一些思路和方法。

正在回答

1回答

  1. 取出html标签我会在拉钩网的抓取中介绍。 python内置的有库可以一键去除所有的html标签

  2. 图片下载比较容易,你只需要按照cnblogs中介绍的,你使用一个xpath语句可以提取所有的img标签中的图片url,你只需要将这些url放入到指定的item中的一个图片的url即可

0 回复 有任何疑惑可以回复我~
  • 提问者 浮生长恨欢娱少 #1
    老师,现在知乎用户的回答的图片URL在JSON的data的content中,用xpath提取不到,要用正则表达式来获取
    回复 有任何疑惑可以回复我~ 2020-12-10 16:03:45
  • 提问者 浮生长恨欢娱少 #2
    老师。方便加下我QQ嘛?
    1624664769
    回复 有任何疑惑可以回复我~ 2020-12-11 00:54:01
  • bobby 回复 提问者 浮生长恨欢娱少 #3
    加你了
    回复 有任何疑惑可以回复我~ 2020-12-11 10:22:57
问题已解决,确定采纳
还有疑问,暂不采纳
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号