零基础实战机器学习
黄佳
新加坡科研局首席研究员
19489 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 24 讲
零基础实战机器学习
15
15
1.0x
00:00/00:00
登录|注册

05 | 数据探索:怎样从数据中找到用户的RFM值?

你好,我是黄佳。
今天我们正式进入“业务场景闯关篇”模块。我在开篇词中介绍过,在这个模块中,我会围绕电商场景下的运营环节,带你挑战 5 个关卡:获客关、变现关、激活关、留存关和裂变关,帮你逐步掌握机器学习的相关知识和实操技巧。今天,我们就从第一关“获客关”开始!
人们常说移动互联网的运营已经进入了下半场,几乎所有的企业都希望能用更优质的产品和更精准的服务留住用户,这就需要制定出合适的获客策略。而要做到这一点,前提就是为用户精准画像,也就是根据用户的人口统计信息和消费行为数据,给用户分组,然后推测出用户的消费习惯和价值高低。
所以,为用户分组、画像,找到不同用户的特点,进而挖掘出哪些才是最有价值的用户,是目前互联网大厂中的数据分析师和机器学习工程师常做的工作。既然如此,那么我们就在获客关,结合一个具体的电商项目,来看看怎么根据用户的基本信息和消费行为数据,给用户分组画像。

定义问题

按照我们前两讲所说的机器学习“实战 5 步”,我们首先要做的就是,把项目的问题定义清楚。在我们这个项目中,你可以想象自己就职于一家名为“易速鲜花”的创业公司,担任这家公司的运营团队机器学习工程师。你现在要接手的第一个项目就是为公司的用户分组画像。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

本文介绍了如何从数据中找到用户的RFM值。作者首先介绍了在电商场景下的获客关,即为用户分组画像的重要性。然后详细解释了RFM(Recency、Frequency、Monetary)值的含义和计算方法。接着,作者通过Python的Pandas包对数据进行了预处理和可视化,包括数据读取、数据可视化和数据清洗。最后,作者提出了下一步的目标是解决第一阶段的问题,即求出RFM值。整篇文章结构清晰,内容详实,适合数据分析和机器学习领域的读者阅读。 文章通过介绍RFM模型的重要性和计算方法,以及使用Python的Pandas包对数据进行处理和可视化,为读者提供了在数据分析和机器学习领域的实际操作指南。读者可以从中学习如何从消费历史数据中求出每位用户的R、F、M的值,为用户分组画像提供了实际操作的参考。同时,文章还强调了对RFM分析的理解和应用,以及这些指标可以应用于哪些业务场景,为读者提供了更深入的思考和应用方向。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《零基础实战机器学习》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(20)

  • 最新
  • 精选
  • GAC·DU
    上班偷偷摸鱼,把老师分享的课程由粗到细品味了三遍,老师不仅技术高超,运营也这么牛,真是望尘莫及,在没订阅课程之前,我一点运营的知识都没有,看完今天的课程感觉自己又可以了。聊下老师的思考题,我想起当年的瑞幸和滴滴就这么搞的,通过下载APP注册,发送大量的消费券,获取很多的用户。然后经过时间的沉淀,利用RFM技术对用户进行分组,对于用户粘性较高的,进行精细化推荐。对于用户粘性较低的,发送消费券,进行召回用户。对于用户关系管理,可以把R理解为最近一次见面的时间,F理解为多长时间见一次面,M理解为见面聊天的深度,如果只是say hi, 那M的值很低,如果是畅谈人生,M值就会很高。 群里老师说把解决google colab中文乱码的方法分享出来,我说一下大概的思路,然后我会在最后根据本次课程的代码分享测试地址(需要科学上网访问)。 首先是下载你喜欢的中文字体,然后通过FontProperties来指定你下载的字体和展示大小,最后在需要展示中文的地方进行调用。 https://colab.research.google.com/drive/1EuXud71LiM6QsNIA9hsCeOlMiyrB6zLV?usp=sharing

    作者回复: 十分感谢你的分享和肯定。也非常非常欣慰你能够在学习中得到收获,感受到进步,同时得到乐趣。我觉得这就是学习的上佳状态。学而时思之,不亦乐乎。 也谢谢你分享展示中文字体的经验!有需要的同学可以参考一下 😄

    2021-09-08
    2
    14
  • 茜茜
    我觉得RFM适用于高频交易的场景,如零售,不适用于低频交易场景,如赛事演出票务。通过RFM将可以用户分为高中低等价值用户,在需要对某些产品进行营销推广时,可以将高价值用户定为主要营销群体,从而获得更高的订单转化率。但在计算RFM时,可能会面临以下问题:1.用户id与用户并不是一一对应或用户id不统一:如用户有多个账号,或者是多人使用该用户的id发生购买行为,或者部分消费记录未记入该用户,通过的RFM值无法真实反应用户的消费情况。2.关于F值:对于耐用性高的商品,可能一年就买一次,这时可以去掉F值里的时间限制,用该用户累计购买值代替。最后我的感悟是:模型只是基础,不能直接套用,需要结合相应业务场景对模型进行不同程度的修正,来满足业务运营的目标。

    作者回复: 对的,具体问题具体分析,活用数据。

    2021-09-08
    2
    11
  • 海林Lin
    课程很有收获,有个问题请教老师,为什么说RFM分析能够应用在获客环节呢,个人理解这个时候往往没有用户的行为数据

    作者回复: 嗯,挺好的问题。其实,从AARRR海盗模型的角度来说,获客、激活、留存、变现、增长循环,这5个环节是一个有机的整体,其实并没有一个明显的分割线。很多工具都可以重复使用在各个环节中。现在有一种说法,就是从AARRR到RARRA的模型变化,本质是从野蛮获取用户到精细化运营用户的视野转变。那么,因为现在大多数App获客阶段已经结束了,已经拥有了海量用户。那么,为这些用户画像,精细化运营就更重要。 回到你的问题:为什么RFM分析能够应用在获客环节?从机器学习的角度来讲,如果我能够利用一批老客户的特征(不一定是消费行为特征,也许是人口统计学特征),确定各个客户的价值。那么,我就可以用这个模型做指导,判断出新的具有类似特点的新客户价值有多大。对吧。所以这个工具可以应用在获客环节。

    2021-09-09
    2
    7
  • Geek_80f43d
    近度不应该是datetime.now()和最近一次的消费时间差值吗

    作者回复: 同学说的对,在实操中应该用datetime.now()。不过我这个是历史数据集,如果采用datetime.now()的话,新进度就越来越遥远了。因此只能选择数据集形成时最新的那一天做示例。

    2021-11-16
    6
  • yk
    佳哥好,有个问题,现在例子的数据集都比较小,如果是上亿的数据,也是这么处理吗?全加载到内存会不会很大。

    作者回复: 正如其它同学指出的,大数据有大数据的跑法。如Hadoop和Spark允许你在多台机器上分布式地处理大数据。例如,使用Hadoop的MapReduce可以将大数据处理任务分割成多个小任务,并在集群的各个节点上并行处理。

    2022-02-14
    2
    4
  • !null
    对于实战课,手不能懒,得敲一下熟练熟练。

    作者回复: 对,从我自己学习的过程中我也有这个体会。只有动手,才能够发现更多的奥秘。

    2021-09-08
    2
  • 小杰
    比如客服,针对不同的用户,推送不同的内容,针对R最新消费的时间越短的用户,可以推送更多的新品;针对F消费频率高的用户:可以推送更多的优惠;针对M消费金额高的用户:可以推送更高质量的商品。最后推荐搭大家走一遍代码流程,具体细节可以不用关注,老师说了,代码是很简单的,要知道如何分析,处理,提取数据,这个才是重点

    作者回复: 对的

    2023-02-12归属地:浙江
    1
  • 在路上
    佳哥好,看到github上更新了这节课的最新代码,非常开心,这对于我这种初次接触Jupyter和Python的学员来说太重要了,调试非常方便。 RFM 模型是我今天学到的新知识,F代表行为的频率,M代表行为的程度,如果行为是消费,M就是消费金额,如果行为是充值,M就是充值金额,F和M是行为的两个特征,就像我们用振频和振幅来描述振动的特征。R代表行为最近发生的时间,RFM从不同维度描述了一个行为,当然具体的行为可能还能找到特殊的特征。 把行为量化成数值,就可以根据数据聚类,大部分行为都会呈现28分布,就像80%的性能问题是20%的代码引起的,而真正的原因往往出乎你的预料,所以通过聚类可以让我们认识到事先想不到的问题。

    作者回复: 深为你认真学习的精神而感动!而且,你在学习实战的同时都有很多思考,难能可贵。 我们的数据集,和RFM这些维度,只是用抽象的、大家可以理解的数据启发一个思考,当你吧数据分析、可视化、机器学习的思路应用到公司的具体业务数据中,你能够发现数据能带来很多原来看不到的新启发和新灵感。这些东西只有我们在工作、学习的个人实践中去发现。 也欢迎大家多多分享自己的实践心得。

    2021-09-08
    2
    1
  • honmio
    哪位可以共享一下测试数据呢? github上的文件已经无法下载了,先行谢过

    作者回复: 同学你加群后问题解决了对吧。是网络连接问题对吧。

    2024-01-12归属地:北京
  • 静静呀
    一千多行负数,有没有可能是退货呢?属于正常数据

    作者回复: 这样理解也行啊。反正就是清洗数据,知道自己在做什么就行。

    2023-11-01归属地:上海
收起评论
显示
设置
留言
20
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部