• 林彦
    2018-04-25
    Counting Bloom Filter支持删除操作,除了已有的二进制向量,向量的每一位对应一个整数计数器。每当增加一个元素时,哈希函数映射到的二进制向量对应的整数计数器加一,删除时减一。有了这个操作可以增加,查找和删除集合里的元素。
    
     5
  • EAsY
    2018-04-25
    用布隆过滤来过滤用户推荐记录的话 是否需要为每个用户存一个向量 之前考虑过用bitmap 内容池经常变动 感觉比较麻烦
     1
     3
  • Geek_c6646f
    2019-05-30
    信息流页面,调用api接口获取到推荐的数据,一般情况下会在页面进行瀑布流加载更多。那么每次请求数据和整个瀑布流批次数据如何统一?防止重复推荐?如何处理整个批次的推荐和单次的存储、缓存、以及统一呢? 作者回复: 关于这个问题,在我的图书中有详细介绍。
    我:哪本书呢

    作者回复: 已经完成,还在编辑中。

     1
     1
  • vicviz
    2018-05-03
    Bloomfilter非常大的时候,用什么存储呢?用户数过亿,保存上千条内容不重,还得持久化
     1
     1
  • 曾阿牛
    2018-04-26
    对于分页展示的推荐列表,有更快速的方法保证前后几页不重复吗?
    
     1
  • 曾阿牛
    2018-04-26
    业界一般是不对布隆过滤器剔除元素,原因是剔除已有元素有可能导致整体数据错误。想到一种方法:使用一个同样长度的向量,记录对于位置1的个数,剔除是先hash6映射,对于1的位置,个数大于的话不变,等于1的话设为0;不过,缺点是这个向量占空间,存储成稀疏向量吧
    
     1
  • luis
    2019-09-03
    如bloomfilter要存储的过滤数据很大 每个用户至少需要20mb 全放在内存 100万用户就要2000g的内存 这要怎么解决
    
    
  • 随心而至
    2019-08-06
    如果每一节能把参考的资料给出来就好了,虽然有的通过Google可以找到类似的。
    
    
  • chy2048
    2019-07-15
    买了这个专栏只想请教下关于去重的问题,不知道还会不会有人回复😂
    用布隆过滤器防止内容重复推荐,具体是怎么实现的?
    1.是一个用户一个布隆过滤器吗?
    2.如果是一人一个布隆过滤器的话,如何设置布隆过滤器的大小呢?貌似不能动态伸缩吧?
    3.布隆过滤器持久化是依赖redis吗?
    4.如果需要对过去24小时的内容去重,如果每隔24小时创建一个布隆过滤器,那两个过滤器如何平滑过度?
    看到有空麻烦回复下,谢谢🙏买这个专栏只为这一篇,本来想看下面的评论,结果评论只有10条,我晕
    展开
    
    
  • shangqiu86
    2019-05-06
    感觉布隆过滤不错,可以考虑把我们这目前的累计用户的点击sku串改成布隆过滤这种方式,来增加保存的用户历史行为数据量
    
    
  • chon
    2019-03-18
    老师,simhash算法有啥好用的来源项目吗?谢谢

    作者回复: 自己实现很简单的。

    
    
  • Da.du.Ma
    2019-01-14
    信息流页面,调用api接口获取到推荐的数据,一般情况下会在页面进行瀑布流加载更多。那么每次请求数据和整个瀑布流批次数据如何统一?防止重复推荐?如何处理整个批次的推荐和单次的存储、缓存、以及统一呢?

    作者回复: 关于这个问题,在我的图书中有详细介绍。

    
    
  • wzm1990
    2018-05-11
    请教个问题,我们在用 simhash 做文本去重,用一个 simhash 值跟几十万个值比对。目前是把几十万的值放到 redis,比对时加载到程序里,这样做特别耗cpu,有没有其他更好的实现
    
    
我们在线,来聊聊吧