• RZ_diversity 置顶
    2017-10-19
    线上:对于每一个用户的搜索历史记录,商品历史点击率等数据保存在线上数据库中。这些数据要定期输入到线下已经训练好的模型中来对参数进行更新。线下:推荐模型的训练,评估过程。这种思路其实和文中提到的垃圾邮件系统解决方案是类似的。

    这里面存在的问题是,这种线上线下分割方法能够确保这个系统是一个pipeline吗?是否不需要太多人工干预?
    
     4
  • udisyue 置顶
    2017-10-21
    我们先考虑一个商品推荐模型所需要的数据有哪些。对于商品推荐来说,它的数据来源应该有两种,一是用户的搜索记录,二是用户的购买记录。搜索记录的数据表示的是用户想买什么,而购买记录表示的是用户的购买结果。推荐商品的时候,如果用户已经购买过了商品,那么即使我们的模型非常完美预测了用户的购买意向,也并不能产生任何价值。而只有那些进行了搜索并且没有购买的用户才更值得作为数据进行采集。而用户购买了商品也并非完全没有价值,应当进入另一阶段用无监督的算法来进行学习。所以我在线上除了执行推荐的结果匹配,还要在用户执行购买后把他的订单数据更新到线下训练集。线下训练集扩充后再执行验证,矫正模型。
    
     3
  • Momo
    2017-11-03
    恰好是做推荐系统的,来回答一下课后题,线上部分只有实时的召回(比如用户触发了某个关键词)和排序的预测过程(用一些简单的实时特征,再加一些提前准备好的只需要查询的离线特征),而其他部分,比如召回集合的规则、离线召回、排序模型的训练等等都是线下。顺便回应一下「小凯」的提问,这么接地气的内容,不是工业界的人根本写不出来,恐怕在书本里是找不到的。

    作者回复: 非常好的回答。

    
     29
  • 吴文敏
    2017-10-19
    最简单的方式线上从Aerospike这类数据库中读取用户的推荐结果,其余全部放到线下
    
     2
  • 小凯
    2017-10-19
    关于机器学习的“系统” “管道”概念,理论,应用有没有相关参考书,或者参考文献?
    
     1
  • 杯莫停
    2018-08-09
    能用时间解,就少引入状态,时间解不了,再考虑保存状态,状态的维护和迭代成本都很高。一些伪状态:各种模型参数,可以看作内容效果向用户体验的妥协,能小则小。
    
    
  • suke
    2017-12-02
    请问 您说的管道的最终产品 和管道的源头 是如何联系在一起形成闭环的 能再详细解说一下么

    作者回复: 主要是需要依靠实验和测量不断对产品的创新进行推进。

    
    
  • 范深
    2017-10-21
    在线和离线特征与打分预测模块放到线上;
    数据收集、清洗与模型训练和评估放到线下。
    
    
我们在线,来聊聊吧