请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

数据库设计

  1. 数据库设计中为什么把url加密 然后生成对应id 作为主键
  2. 视频中讲解 scrapy源码url去重 但是也没有用到或者更改配置 会影响重新抓取到相同内容是什么意思呀

正在回答

2回答

bobby 2020-07-30 18:46:09
  1. url的长度可能非常长。有可能不长。我们之前抓取过一个大型网站有一些url的长度大于2000,你想一下 99%的长度不超过100, 但是有些长度超过2000所以如果保存url那么我的长度得超过2000这样很浪费空间。并且对这个字段进行查询效率很低

  2. 比如你抓取商品A,如果只是url去重,那么后续这个商品信息更新了怎么办?

0 回复 有任何疑惑可以回复我~
  • 提问者 AmoXiang #1
    那为什么不设置自动增长呢 是后续数据量太大不好更新和维护吗?
    回复 有任何疑惑可以回复我~ 2020-07-31 14:27:43
  • bobby 回复 提问者 AmoXiang #2
    自动增长 重复抓取的怎么查重呢?
    回复 有任何疑惑可以回复我~ 2020-08-03 09:37:02
  • 提问者 AmoXiang #3
    非常感谢!
    回复 有任何疑惑可以回复我~ 2020-08-03 15:56:57
提问者 AmoXiang 2020-07-31 08:48:19

那为什么不设置自动增长呢

0 回复 有任何疑惑可以回复我~
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信