成为 AI 产品经理
刘海丰
京东高级架构师
23717 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 38 讲
成为 AI 产品经理
15
15
1.0x
00:00/00:00
登录|注册

06|AI模型的构建过程是怎样的?(上)

你好,我是海丰。
上节课,我们说 AI 产品经理一定要知道算法模型构建的过程,但这并不意味着,AI 产品经理要参与研发,而是说我们要基于对需求和业务的理解,配合算法同学进行数据集的准备、模型训练、参数调优等等,及时跟进模型的目标优化,针对突发问题做出调整和决策。
当然,了解模型构建这个环节还有另一个好处,那就是当模型构建的进展出现问题,需要延期或者其他资源支持的时候,我们就能按照自己的理解,把算法构建过程中的技术原理以及出现的问题,用非技术语言传达给公司领导和客户,这更容易获得他们的支持和认可。
为了让你更清晰地了解到模型构建环节中算法同学的具体工作,我会结合上节课用户流失预测的例子,用两节课的时间为你讲解一个 AI 模型构建的过程。模型构建主要包括 5 个阶段,分别为模型设计、特征工程、模型训练、模型验证、模型融合。今天,我们先讲前 2 个阶段,下节课,我们再讲其他 3 个。
模型构建整体流程

模型设计

在模型设计环节,产品经理要考虑的问题就是,在当前业务下,这个模型该不该做,我们有没有能力做这个模型,目标变量应该怎么设置、数据源应该有哪些、数据样本如何获取,是随机抽取还是分层抽样。
不过,对于算法工程师来说,不管你要做的是用户流失预测,还是用户信用评分模型,算法选型上都没有什么不同,都是解决分类问题,通过算法和数据去训练一个模型,然后根据输入得到一个预测结果。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

本文介绍了AI模型构建过程中的特征工程环节,强调了产品经理和算法工程师之间的紧密合作。文章首先从特征提取入手,详细介绍了数值型特征数据、标签或描述类数据、非结构化数据和网络关系型数据的提取方法。接着阐述了特征选择的过程,包括对特征覆盖度、IV值和稳定性的筛选方法。最后,文章提到了生成训练/测试集的阶段,强调了算法工程师在模型训练前需要将数据分成训练集和测试集。总结来看,本文重点强调了特征工程在AI模型构建中的重要性,以及产品经理和算法工程师在特征工程过程中的合作关系。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《成为 AI 产品经理》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(39)

  • 最新
  • 精选
  • 悠悠
    置顶
    模型设计阶段的PRD文档,是什么样子的,老师可以发一个看看吗

    作者回复: 我觉得,需要明确的有: 1、具体的模型输出(即算法目标)。你要解决是一个分类问题还是一个回归问题(输出是一个概率还是一个连续值) 如果是一个概率值,并且是用在分类场景,那还要确定是否需要模型进行二次加工,比如在做高潜用户预测,模型输出的是一个概率值,但这个概率值在业务场景无法使用,所以就还需要映射成具体的用户等级。 2、数据接入。是否有数据依赖,注明已接入的数据,包括数据类型(Hive / MQ),数据量大小,更新频率,Hive表名及格式。 3、服务性能。部署的接口峰值qps、延迟要求、日均UV。 4、验收标准。除了如 KS、AUC 等强模型指标的确定。另外还要以目标为导向编写 PRD 的验收标准,不要拘泥形式。 举个例子,比如在推荐系统的排序环节中,产品经理就要以目标为导向将模型的评估指标写到 PRD 中,如果产品是以提高 CTR 为目标,那么可以使用 CTR 作为衡量排序模型的指标。但在电商场景中,还存在 CVR、GMV、UV 等多个核心指标,并不是一个指标所决定的,所以此时产品经理要根据业务目标来优化排序模型的验收标准,如果公司追求的是 GMV,那么此时的单纯提升 CTR ,在一定程度上只能代表着用户体验的提升。 但这些关注点对于算法工程师来说,就会考虑的很少,因为他们只对模型负责,不对产品负责。但对于产品经理来说,这才能体现你的 PRD 的价值。

    2020-12-26
    62
  • 大雷子
    1、双11、618等促销日,用户会集中下单,促销日前后时间段下单几率较小,这期间30天未下单,不能定义为流失客户; 2、用户历史购买商品类型,如果大型家电、家居类居多,这一类商品购买频率本身就比较低,如果该用户30天未下单,也不能定义为流失客户; 3、用户历史订单评价,如果评价较好,30天未下单也不能定义为流失客户

    作者回复: 👍

    2020-12-30
    27
  • 悠悠
    课后讨论 新注册用户、长假期、临近大促消,可能会影响用户下单时间

    作者回复: 👍

    2020-12-26
    2
    7
  • Miss斑马
    说了这么多,其实核心就是一句话:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 ---怎么理解这里说的“算法”,是个什么东西?

    作者回复: 影响机器学习上限的因素有很多,算法选型也是其中之一。 但这句话的关注点是在说特征工程的重要性。

    2021-01-04
  • 丸子酱
    课后问题答疑: 1.时间区段:大促、定时抢购前后无下单行为很正常,应该结合活跃程度、浏览产品和加入购物车等行为总和分析; 2.外界影响:政策、疫情等不可抗力因素导致的不能下单或者快递不可达的情况,不可一刀切为流失用户; 3.用户层:应对用户画像,历史购物行为中,购买奢侈品、电子产品、大型家具等本身频次比较低的产品,不可判断为流失用户,应综合考虑该类产品的使用寿命、用户行为、购物偏好、季节适配性等条件综合判断 4.平台和合作平台极端情况:如用户经常性购买的物品,长期属于断货情况、或者合作的快递终止合作,导致无快递送达等因素、或者平台某功能长期不可使用导致用户不可下单等极端情况
    2021-01-12
    15
  • AsyDong
    平均购物周期;月度购物次数和金额环比:如果上个月大量采购完,这个月不太会再次进行采购;购物品类偏好:日用品消费频次高,大小家电消费频次相对较低
    2020-12-25
    6
  • Geek_c95225
    特征值的提取 稳定性 、iv值、覆盖率 是怎么去定义的?
    2021-12-23
    5
  • Fan
    老师问下 如果手头上现在没有AI项目,学习了这些理论的话,有没有更好办法去实践,例如可以进行怎么模拟来部分还原真正的AI项目实践。
    2020-12-25
    1
    4
  • Geek_d7623f
    特征的IV值和稳定性是怎么计算的?如果按照筛选后剩下的特征比较少,是否还要再挖掘之前未想到的特征? 课后思考:用户购物车中商品数量,可能用户在等待大促活动一起下单。
    2020-12-25
    3
  • Geek7419
    请问IV值是怎么计算的? 看到结尾了,也没有讲这个指标的计算方式。
    2021-12-13
    1
收起评论
显示
设置
留言
39
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部