零基础实战机器学习
黄佳
新加坡科研局首席研究员
19489 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 24 讲
零基础实战机器学习
15
15
1.0x
00:00/00:00
登录|注册

14|留存分析:哪些因素会影响用户的留存率?

你好,我是黄佳。欢迎你来到零基础实战机器学习,今天我们正式开启留存关。
在开启这一关之前,我想给你讲一个小时候的故事。这是 70 年代人的回忆了,那时候,小学的校门口有两家租“小人书”摊,一毛钱看一本。小人书,就是一大堆的 64 开小画本,里面是西游记、水浒传、封神榜、射雕英雄传啥的。
两家的小人书其实都差不多的,那个年代也没有玄幻,也没有网络写手。可是呢,A 家的生意总比 B 家好,我一开始不知道怎么回事,后来我想起 A 家的老板记忆力很好,他总能记住我们这些孩子谁是谁,而且他每次都和我们说:“看五本送一本哈!”如果我们看了三本,他就会说:“下回再看两本就多送一本免费的。”
多年以后,我恍然大悟,原来老板在 30 年前就建立起了买 5 送一和老客户会员卡的制度。只不过他是凭借自己的记忆力来完成的。正是由于这个原因,A 老板的用户留存率比较高。
什么是用户留存?留存就是让老用户一直使用你的产品。其实,谈留存,就不能不提另外一个关键概念“流失”。用户的留存和流失,是阴和阳的两极,此消彼长。收集和分析用户行为数据,有助于我们摸清用户是“留”还是“失”之间的微妙门道。
那么,今天这节课我们就通过机器学习模型来显示易速鲜花的会员留存曲线,并且分析“易速鲜花”会员卡中设置的哪些机制,是对会员留存影响比较大的因子,哪些又容易造成用户的流失。学习了这些,你就掌握了一组非常实用的运营分析工具,这对于如何留客有很大的指导意义。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

通过本文我们了解到,留存分析是一种重要的数据分析方法,可以帮助企业探索用户留存率的影响因素。文章以易速鲜花会员留存数据集为例,介绍了如何进行数据预处理、特征工程和机器学习模型的建立,以及如何使用Cox危害系数模型来预测用户留存概率和分析影响留存的因子。通过Kaplan-Meier生存模型和Cox危害系数模型,我们可以显示整体的用户留存曲线,并发现不同特征对留存的影响。文章还提到了lifelines工具包中的相关功能,为读者提供了实用的留存分析工具。总的来说,本文通过实际案例和技术方法,展示了如何利用数据分析和机器学习模型来探讨用户留存率的影响因素,对于从事数据分析和用户留存管理的读者具有一定的参考价值。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《零基础实战机器学习》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(5)

  • 最新
  • 精选
  • 那时刻
    会员制的确能够提高留存,但是自动付费这个点,是否存在玩家忘记这个自动扣费点而实际上玩家已经流失呢?

    作者回复: 的确的确,所以对于流失的判断还可以考虑引入RFM值等行为因子,查看购物频率等等。尤其是R值,那是评估用户是否流失的好指标。不过不同类型的App,R值阈值不同。微信的话,三天都不可能不用,但是携程旅行,可能半年一年用一次。因此不能一概而论。

    2021-09-29
    3
  • 在路上
    佳哥好,影响用户留存的因素包括:会费支付方式、性别、会员卡类型、优惠套餐和月消费金额。从Cox 危害系数模型对影响留存的因子分析结果来看,会员卡类型影响较大。会员卡类型包括三种,月卡、年卡和双年卡,get_dummies方法drop掉了双年卡的数据,不过剩下两个有很大的负面影响,那么双年卡必然有很大的正面影响。

    作者回复: 对,是这样的。

    2021-09-29
    1
  • 如果把drop_first=True 改成drop_first=False,在拟合的时候会报错,估计是共线性问题引起的,随机删掉会引起共线性问题的两列数据df_member_1 = df_member_1.drop(['会费支付方式_微信自动扣款','会员卡类型_年卡'],axis=1),拟合正常。查阅了官方文档,确实提到了共线性问题会引起矩阵计算出错: Convergence halted due to matrix inversion problems: This means that there is high collinearity in your dataset. That is, a column is equal to the linear combination of 1 or more other columns. A common cause of this error is dummying categorical variables but not dropping a column, or some hierarchical structure in your dataset. Try to find the relationship by: adding a penalizer to the model, ex: CoxPHFitter(penalizer=0.1).fit(…) until the model converges. In the print_summary(), the coefficients that have high collinearity will have large (absolute) magnitude in the coefs column. using the variance inflation factor (VIF) to find redundant variables. looking at the correlation matrix of your dataset

    作者回复: 是这样的。不Drop_First,特征集肯定会有冗余信息。在另一个回答中我给出了更多解释。

    2021-09-29
    1
  • 佳哥,有个问题不是很理解,文中提到把分类字段转换为哑编码的时候选择drop_first = True,这能够避免回归中的多重共线性问题,那么共线性问题在Cox模型中会有什么影响呢?我理解留存率的计算各个特征应该是独立 ,不应该相互影响,所以不明白为什么要把drop_first设为True。以会员卡类型为例,drop_frist = True之后,双年卡就没有出现在数据里面了。这样后面也看不到双年卡的留存概率曲线和留存相关系数了。

    作者回复: 比较好的思考。是有这个局限。不过,你在另外一个回答中也指出了,避免共线性是必须做的。这就像我们男,女,肯定是一列数据,不可能男一列,女一列。所以正确做法是N-1。 那么,没有双年卡怎么办。 1. 在路上读者分析的不错:get_dummies方法drop掉了双年卡的数据,不过剩下两个有很大的负面影响,那么双年卡必然有很大的正面影响。 2. 你可以手工的Drop掉中间不那么重要的“年卡”,保留“月卡"和“双年卡”,那么双年卡的数据也就得以显现。--- get_dummies工具是可以手工指定要Drop哪一个类别的。 我想到这两个方案,其它同学还有好建议吗?

    2021-09-29
    1
  • Geek_4bf2e4
    思考题1: 可以关注入会月数、平均月消费的变化 可以关注套餐的相关性,check是否存在用户套餐偏好变更 or 某些套餐的用户粘性逐渐降低 思考题2: retention是一个用于计算用户留存率的Python库,它可以计算每个用户的活跃度,以及每个时间段的留存率。

    作者回复: 哇,好的。谢谢同学的分享!!!

    2023-02-28归属地:荷兰
收起评论
显示
设置
留言
5
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部