作者回复: 我觉得,需要明确的有: 1、具体的模型输出(即算法目标)。你要解决是一个分类问题还是一个回归问题(输出是一个概率还是一个连续值) 如果是一个概率值,并且是用在分类场景,那还要确定是否需要模型进行二次加工,比如在做高潜用户预测,模型输出的是一个概率值,但这个概率值在业务场景无法使用,所以就还需要映射成具体的用户等级。 2、数据接入。是否有数据依赖,注明已接入的数据,包括数据类型(Hive / MQ),数据量大小,更新频率,Hive表名及格式。 3、服务性能。部署的接口峰值qps、延迟要求、日均UV。 4、验收标准。除了如 KS、AUC 等强模型指标的确定。另外还要以目标为导向编写 PRD 的验收标准,不要拘泥形式。 举个例子,比如在推荐系统的排序环节中,产品经理就要以目标为导向将模型的评估指标写到 PRD 中,如果产品是以提高 CTR 为目标,那么可以使用 CTR 作为衡量排序模型的指标。但在电商场景中,还存在 CVR、GMV、UV 等多个核心指标,并不是一个指标所决定的,所以此时产品经理要根据业务目标来优化排序模型的验收标准,如果公司追求的是 GMV,那么此时的单纯提升 CTR ,在一定程度上只能代表着用户体验的提升。 但这些关注点对于算法工程师来说,就会考虑的很少,因为他们只对模型负责,不对产品负责。但对于产品经理来说,这才能体现你的 PRD 的价值。
作者回复: 👍
作者回复: 👍
作者回复: 影响机器学习上限的因素有很多,算法选型也是其中之一。 但这句话的关注点是在说特征工程的重要性。