我们先考虑一个商品推荐模型所需要的数据有哪些。对于商品推荐来说,它的数据来源应该有两种,一是用户的搜索记录,二是用户的购买记录。搜索记录的数据表示的是用户想买什么,而购买记录表示的是用户的购买结果。推荐商品的时候,如果用户已经购买过了商品,那么即使我们的模型非常完美预测了用户的购买意向,也并不能产生任何价值。而只有那些进行了搜索并且没有购买的用户才更值得作为数据进行采集。而用户购买了商品也并非完全没有价值,应当进入另一阶段用无监督的算法来进行学习。所以我在线上除了执行推荐的结果匹配,还要在用户执行购买后把他的订单数据更新到线下训练集。线下训练集扩充后再执行验证,矫正模型。