请稍等 ...

布隆过滤器

输入正文最近突发奇想，想测试下布隆过滤器，感觉URL量变大之后，存储真的好慢啊

然后还会报这个错误：

Traceback (most recent call last):

File "D:/pyworkSpace/ENV/scrapy/Scripts/article_spider/article_spider/utils/bloomfilter.py", line 87, in <module>

if not bf.is_exist(test_url):

File "D:/pyworkSpace/ENV/scrapy/Scripts/article_spider/article_spider/utils/bloomfilter.py", line 47, in is_exist

name = self.key + "_" + str(ord(value[0]) % self.blocknum)

IndexError: string index out of range

黎明的烬 2019-04-24 13:31:53

源自：10-9 集成bloomfilter到scrapy-redis中

1002

收起

提交取消

2回答

bobby 2019-04-26 08:59:42

这个异常和数据大小没有关系，为了解决这个问题你最好先看一下这个异常出现的地方，debug一下是哪个地方出问题了

0 回复有任何疑惑可以回复我~

提问者黎明的烬 #1

就是这个问题已经解决啦，谢谢老师、但是我发现在存储100万条URL真的会消耗很长时间，而且最后之后没插入一条url的时间居然比用redis集合耗费的时间还多…不知道是为什么～

回复有任何疑惑可以回复我~ 2019-04-26 09:02:41

bobby 回复提问者黎明的烬 #2
```
你说的插入是插入到数据库慢还是插入到布隆过滤器慢呢
```
回复有任何疑惑可以回复我~ 2019-04-27 15:29:52

提问者黎明的烬回复 bobby #3

对，就是调用布隆过滤器的add方法添加，没有用is_exist进行判断，  我用的Redis set和布隆过滤器插入url   发现布隆过滤器需要半个小时，Redis的set 1min内可以结束

回复有任何疑惑可以回复我~ 2019-04-27 15:32:31

点开查看后面10条评论

提问者黎明的烬 2019-05-01 12:34:15

布隆过滤器

0 回复有任何疑惑可以回复我~

相似问题

如何添加布隆过滤器

布隆过滤器这里的哈希为什么只哈希四位字符（比如ACCG），为什么不直接哈希ACCGTAG ？

做去重布隆过滤器和redis哪个更好？

布隆过滤器

布隆过滤器内容的初始化

登录后可查看更多问答，登录/注册

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

参与学习 5808 人
解答问题 6291 个

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

了解课程

本课精华内容

问答作业

Missing argument grant_type

4.9k 30

MysqlTwistedPipline的对象没有cursor属性

2.7k 18

知乎answer提取不到

1.3k 18

为什么知乎数据导入不到MySQL数据库中？

1.5k 15

运行 scrapy crawl jobbole 报错

3.0k 15

查看更多本课问答

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

扫描二维码
关注慕课网微信公众号