15 | K-means 聚类算法：如何挖掘高价值用户？

刘海丰



该思维导图由 AI 生成，仅供参考

你好，我是海丰。
在前面的课程中，我们学习了分类算法：K 近邻、逻辑回归、朴素贝叶斯、决策树，以及支持向量机，也学习了回归算法：线性回归。它们有一个共同点，都是有监督学习算法，也就是都需要提前准备样本数据（包含特征和标签，即特征和分类）。
但有的情况下，我们事先并不能知道数据的类别标签，比如在第 8 讲智能客服的例子中，因为事先并不知道用户的咨询问题属于什么类别，所以我们通过层次聚类算法把相似度比较高的用户咨询问题进行了聚类分组，然后把分析出的常见高频问题交由机器人回复，从而减轻人工客服的压力。
聚类算法是无监督学习算法中最常用的一种，无监督就是事先并不需要知道数据的类别标签，而只是根据数据特征去学习，找到相似数据的特征，然后把已知的数据集划分成不同的类别。
不过，因为第 8 讲中的层次聚类算法在实际工业中的应用并不多。所以今天，我们就来讲一种应用最广泛的聚类算法，它就是 K 均值（ K-means ）算法。
如何理解 K-means 算法？每次大学开学的时候都会迎来一批新生，他们总会根据自己的兴趣爱好，自发地加入校园一个个小社团中。比如，喜欢音乐的同学会加入音乐社，喜欢动漫的同学会加入动漫社，而喜欢健身的同学会加入健身社等等。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

K-means算法是一种无监督学习算法，用于对数据进行聚类分组。该算法通过计算样本点之间的距离，将它们划分到K个类别中，以便找到相似数据的特征并划分成不同的类别。其原理类似于大学新生根据兴趣爱好加入不同社团的情景，即“人以群分，物以类聚”。K-means算法的解决过程包括选择初始质心、计算距离、更新质心等步骤，直到聚类中心不再改变为止。确定K值是一个关键问题，通常需要通过尝试不同K值并计算平均距离来确定最佳聚类数。K-means算法在无监督学习中具有广泛应用，可用于挖掘高价值用户、智能客服等场景，帮助快速理解数据特征并进行有效分类。 K-means算法的应用案例包括对用户进行分层，文本聚类、售前辅助和风险监测等。该算法的优点在于原理简单、程序实现容易、运算效率高、可解释性强，适用于处理绝大多数聚类问题。然而，K-means算法也存在一些缺点，如受噪声影响较大、准确度不如监督学习算法等。总的来说，K-means算法是机器学习领域中处理无监督学习最流行、经典的聚类分析方法之一。它适用于文本聚类和用户分类等场景，具有广泛的应用前景。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《成为 AI 产品经理》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(12)

最新
精选

橙gě狸
在给销售人员提供个性化培训的这个场景上，使用聚类算法。可以先根据销售人员能力模型内的几大标签作为聚类算法的特征，通过算法将销售人员划分为2的n次方个群体，并根据最终聚类结果推送不同的培训课程。
2021-01-15

8
汉堡吃不饱
老师，不明白的一点: 既然都已经分成8类了，且知道每一类的特征与类别了，那这不是有监督学习吗？聚类按照8类出结果后，如果这8类不符合之前定义的8类的标准，怎么办？
2021-01-18
4
5
小太白
应用场景：差异化教学。通过对学生多维数据进行标签，分组，聚类，对学生进行愈发精细的画像，给老师教学决策和差异化教学提供依据和抓手。
2021-03-25

2
Rosa rugosa
在股票软件中，判断资讯发布在那个类别下适合用K-means聚类。K-means聚类适合用在文本分类和精细化运行中的用户分层中。
2021-03-12

2
Yesss!
我暂时接触过环保业务，R：最近一次扔垃圾的频率 F：扔垃圾的频率 M：扔垃圾的重量。在后台得到样本数据，并用K-means。分析出哪一些人员是相似性最大的。从而决定人员相似性最高的楼栋作为标准（实行奖惩等制度）。银行借贷业务也是相似的：R：最近一次借贷频率，F：借贷的频率次数 M：借贷的金额。分析出哪一些人员是最接近老赖的保险业务、电商、社交同理
2021-01-31

2
加菲猫
聚类算法可以用在社区运营和内容推荐上，例如B站、视频网站的内容推荐，电商社区不同用户群的内容、商品推荐；腾讯视频号的内容推荐。
2021-05-06

1
文杰
客户分层，通过聚类后怎么对应到那8个分类去？用户数据是每天变的，每天都要全量数据跑下聚类？还有一个用户今天被分到类1，明天分到类2，前端营销怎么搞？
2021-02-24
3
1
熊猫要吃酒
RFM模型中，R的值越低越好，但是F和M越高越好，怎么看权重呢？
2021-01-15
1
1
Geek_ac620e
hhh
2023-11-03归属地：北京


Juha
老师，“第三步，在划分好的每一个组内，我们计算每一个数据到质心的距离，取均值，用这个均值作为下一轮迭代的中心点。”这里没看明白，是不是应该是取每个组的所有点的坐标的平均值作为新的质点呀
2022-02-18



收起评论