采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
url的长度可能非常长。有可能不长。我们之前抓取过一个大型网站有一些url的长度大于2000,你想一下 99%的长度不超过100, 但是有些长度超过2000所以如果保存url那么我的长度得超过2000这样很浪费空间。并且对这个字段进行查询效率很低
比如你抓取商品A,如果只是url去重,那么后续这个商品信息更新了怎么办?
那为什么不设置自动增长呢 是后续数据量太大不好更新和维护吗?
自动增长 重复抓取的怎么查重呢?
非常感谢!
那为什么不设置自动增长呢
登录后可查看更多问答,登录/注册
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
4.8k 30
2.6k 18
1.2k 18
1.4k 15
2.9k 15