采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
老师,您好。 我的项目在爬取文章时出现了这样一个错误,好几条数据的某一个字段值是一样的,如下图:
我的代码如下:
经过我的研究,我发现这几条数据中,只有第一条数据这个字段有返回,其余几条 没有返回这个字段,导致后边几个字段沿用了第一条返回的值。
下图是我搜的这个字段,8条数据只有一个有返回值:
pipline.py中的代码:
请问老师,我应该怎么改呢?
你可以看看这些重复的item中的url是不是同一个url?
实例化item = items.ScrapyweiboItem()的位置写错了,应该是有几条数据就实例化几个item,我的上图里我的item只实例化了一次,所有数据公用一个item。如果第1条数据field 第2条数据中没有,就继承了第一条数据的值。我把item = items.ScrapyweiboItem() 写道for i in range()中就可以了。
好的,
登录后可查看更多问答,登录/注册
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
4.7k 30
2.5k 18
1.1k 18
1.3k 15
2.7k 15