极客时间-轻松学习，高效学习-极客邦

林彦

2018-04-25

Counting Bloom Filter支持删除操作，除了已有的二进制向量，向量的每一位对应一个整数计数器。每当增加一个元素时，哈希函数映射到的二进制向量对应的整数计数器加一，删除时减一。有了这个操作可以增加，查找和删除集合里的元素。



 5
EAsY

2018-04-25

用布隆过滤来过滤用户推荐记录的话是否需要为每个用户存一个向量之前考虑过用bitmap 内容池经常变动感觉比较麻烦

 1

 3
Geek_c6646f

2019-05-30

信息流页面，调用api接口获取到推荐的数据，一般情况下会在页面进行瀑布流加载更多。那么每次请求数据和整个瀑布流批次数据如何统一？防止重复推荐？如何处理整个批次的推荐和单次的存储、缓存、以及统一呢？作者回复: 关于这个问题，在我的图书中有详细介绍。
我：哪本书呢

作者回复: 已经完成，还在编辑中。

 1

 1
vicviz

2018-05-03

Bloomfilter非常大的时候，用什么存储呢？用户数过亿，保存上千条内容不重，还得持久化

 1

 1
曾阿牛

2018-04-26

对于分页展示的推荐列表，有更快速的方法保证前后几页不重复吗？



 1
曾阿牛

2018-04-26

业界一般是不对布隆过滤器剔除元素，原因是剔除已有元素有可能导致整体数据错误。想到一种方法：使用一个同样长度的向量，记录对于位置1的个数，剔除是先hash6映射，对于1的位置，个数大于的话不变，等于1的话设为0；不过，缺点是这个向量占空间，存储成稀疏向量吧



 1
luis

2019-09-03

如bloomfilter要存储的过滤数据很大每个用户至少需要20mb 全放在内存 100万用户就要2000g的内存这要怎么解决




随心而至

2019-08-06

如果每一节能把参考的资料给出来就好了，虽然有的通过Google可以找到类似的。




chy2048

2019-07-15

买了这个专栏只想请教下关于去重的问题，不知道还会不会有人回复😂
用布隆过滤器防止内容重复推荐，具体是怎么实现的？
1.是一个用户一个布隆过滤器吗？
2.如果是一人一个布隆过滤器的话，如何设置布隆过滤器的大小呢？貌似不能动态伸缩吧？
3.布隆过滤器持久化是依赖redis吗？
4.如果需要对过去24小时的内容去重，如果每隔24小时创建一个布隆过滤器，那两个过滤器如何平滑过度？
看到有空麻烦回复下，谢谢🙏买这个专栏只为这一篇，本来想看下面的评论，结果评论只有10条，我晕

展开




shangqiu86

2019-05-06

感觉布隆过滤不错，可以考虑把我们这目前的累计用户的点击sku串改成布隆过滤这种方式，来增加保存的用户历史行为数据量




chon

2019-03-18

老师，simhash算法有啥好用的来源项目吗？谢谢

作者回复: 自己实现很简单的。




Da.du.Ma

2019-01-14

信息流页面，调用api接口获取到推荐的数据，一般情况下会在页面进行瀑布流加载更多。那么每次请求数据和整个瀑布流批次数据如何统一？防止重复推荐？如何处理整个批次的推荐和单次的存储、缓存、以及统一呢？

作者回复: 关于这个问题，在我的图书中有详细介绍。




wzm1990

2018-05-11

请教个问题，我们在用 simhash 做文本去重，用一个 simhash 值跟几十万个值比对。目前是把几十万的值放到 redis，比对时加载到程序里，这样做特别耗cpu，有没有其他更好的实现



