你好,我是海丰。
上节课,我们学习了帮助运营同学提升用户复购意向的底层逻辑,并在课程结尾的时候说了,最终要找到商品和用户之间的关联关系,然后通过分类算法计算出某个用户在商品品类下的 CVR,进而训练模型。这个模型就是用户对商品品类的复购模型,它具体该怎么构建呢?
这节课,我们一起来打造一个预测用户复购意向的模型,来真正帮助运营同学解决问题。
开发流程
机器学习项目开发的一般流程是数据准备、特征工程、模型训练、模型验证,以及模型融合。下图就是一个机器学习项目流水线式的开发流程,我们今天要实现的高潜用户复购模型也是基于这样的流程来构建的。
数据准备
在进行特征构建和模型开发之前,我们需要对数据的情况进行了解,你可以参考第 5 讲中讲过的,产品经理在数据准备环节中需要做的工作。另外,我也总结了本阶段产品同学需要考虑的几个问题: 数据源来自哪里?即数据如何获取,这里包括内部业务数据、跨部门集团内数据、外采数据。
数据量是否充分,是否还要外部数据补充?
数据是原始数据还是加工后的数据?如果是二次加工后的数据,还需要了解数据加工方法。
数据的业务背景是什么,其中每个字段代表什么含义?
数据字段是什么类型?每个字段都属于什么分布?
数据本身是否有噪音,是否需要进行清洗和降维?
...