14 机器学习 | 物以类聚，人以群分：聚类分析

王天一



该思维导图由 AI 生成，仅供参考

20 世纪 40 年代，美国心理学家罗伯特·泰昂和雷蒙德·卡泰尔借鉴人类学中的研究方法，提出“聚类分析”的概念，通过从相关矩阵中提取互相关的成分进行性格因素的研究。随着时间的推移，聚类分析的应用范围越来越广泛，逐渐演化成一种主要的机器学习方法。
聚类分析是一种无监督学习方法，其目标是学习没有分类标记的训练样本，以揭示数据的内在性质和规律。具体来说，聚类分析要将数据集划分为若干个互不相交的子集，每个子集中的元素在某种度量之下都与本子集内的元素具有更高的相似度。
用这种方法划分出的子集就是“聚类”（或称为“簇”），每个聚类都代表了一个潜在的类别。分类和聚类的区别也正在于此：分类是先确定类别再划分数据；聚类则是先划分数据再确定类别。
聚类分析本身并不是具体的算法，而是要解决的一般任务，从名称就可以看出这项任务的两个核心问题：一是如何判定哪些样本属于同一“类”，二是怎么让同一类的样本“聚”在一起。
解决哪些样本属于同一“类”的问题需要对相似性进行度量。无论采用何种划定标准，聚类分析的原则都是让类内样本之间的差别尽可能小，而类间样本之间的差别尽可能大。度量相似性最简单的方法就是引入距离测度，聚类分析正是通过计算样本之间的距离来判定它们是否属于同一个“类”。根据线性代数的知识，如果每个样本都具有 N 个特征，那就可以将它们视为 N 维空间中的点，进而计算不同点之间的距离。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

聚类分析是一种重要的无监督学习方法，旨在揭示数据的内在性质和规律。本文介绍了聚类分析的基本原理和常用算法，包括层次聚类、原型聚类、分布聚类和密度聚类。这些算法在判定样本属于同一类的标准和聚类方式上各有特点，读者可根据具体需求选择合适的方法。文章还提到了现代聚类方法如谱聚类和模糊聚类，以及聚类分析在用户画像等领域的应用。此外，文章指出了在评价聚类方法时需要考虑的因素，特别是在数据多样化、高维化、非均衡化的情况下。总的来说，本文为读者提供了对聚类分析的全面了解，包括原理、算法、应用和评价因素，对于对聚类分析感兴趣的读者具有很高的参考价值。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《人工智能基础课》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(7)

最新
精选

Wesley
评价聚类方法的难度甚至超出了设计聚类方法的难度 --不能同意太多，一般需要根据实际应用的业务指标来评估。
作者回复: 使用聚类方法一定得具体问题具体分析，是典型的不管白猫黑猫，抓住耗子就是好猫。
2018-11-30

2
十八哥
从价值导向反推哪些变量是影响最大的。
作者回复: 逆向思维的过程
2019-06-17


杨家荣
极客时间 21天打卡行动 12/21 <<人工智能基础课14>>聚类分析回答老师问题:由于其无监督学习的特性，在评估聚类方法时也就不存在绝对客观的标准。尤其是在数据多样化、高维化、非均衡化的趋势下，评价聚类方法的难度甚至超出了设计聚类方法的难度。那么在评价聚类方法时应该考虑哪些因素呢？ 1,分析:聚类分析分几类?1,直接聚类法;2,最短距离聚类法;3,最远距离聚类法;通过类别分析,我们应该考虑样本的相似度,特征,或者外在平衡点;曾经有个考题:影响聚类算法效果的主要原因有()a,特征选取;b,模式相似性测度;c,分类准则;d,已知类别的样本质量;这些都有影响,其中最主要的是C,分类准则; 今日所学: 0,开篇点题:聚类分析是一种无监督学习方法，其目标是学习没有分类标记的训练样本，以揭示数据的内在性质和规律; 1,分类是先确定类别再划分数据；聚类则是先划分数据再确定类别; 2,一是如何判定哪些样本属于同一“类”，二是怎么让同一类的样本“聚”在一起; 3,解决哪些样本属于同一“类”的问题需要对相似性进行度量; 4,度量相似性最简单的方法就是引入距离测度; 5,在聚类分析中常用的距离是“闵可夫斯基距离”; 6,确定了“类”的标准之后，接下来就要考虑如何让同一类的样本“聚”起来，也就是聚类算法的设计; 7,层次聚类又被称为基于连接的聚类，其核心思想源于样本应当与附近而非远离的样本具有更强的相关性; 8,层次聚类对数据集的划分既可以采用自顶向下的拆分策略，也可以采用自底向上的会聚策略，后者是更加常用的方法; 9,根据距离计算方式的不同，会聚算法可以分为单链接算法、全链接算法和均链接算法; 10,原型聚类又被称为基于质心的聚类，其核心思想是每个聚类都可以用一个质心表示; 11,k 均值算法是典型的原型聚类算法，它将聚类问题转化为最优化问题; 12,“取平均 - 重新计算中心 - 重新聚类”的过程将不断迭代，直到聚类结果不再变化为止; 13,分布聚类又被称为基于概率模型的聚类，其核心思想是假定隐藏的类别是数据空间上的一个分布; 14,基于概率模型的聚类实质上就是进行参数估计，估计出聚类的参数集合以使似然函数最大化。期望极大算法（Expectation Maximization algorithm）是典型的基于概率模型的聚类方法。 15,EM 算法执行的过程包括“期望”和“最大化”两个步骤; 16,密度聚类又被称为基于密度的聚类，其核心思想是样本分布的密度能够决定聚类结构; 17,最流行的基于密度的聚类方法是利用噪声的基于密度的空间聚类（Density-Based Spatial Clustering of Applications with Noise），简称 DBSCAN; 18,现代聚类方法还包括谱聚类和模糊聚类等等; 名词:聚类,非负性,同一性,对称性,直递性,欧式距离,单链接算法、全链接算法,均链接算法,贪心策略总结:老师讲过的重点: 0,聚类分析是一种无监督学习方法，通过学习没有分类标记的训练样本发现数据的内在性质和规律； 1,数据之间的相似性通常用距离度量，类内差异应尽可能小，类间差异应尽可能大； 2,根据形成聚类方式的不同，聚类算法可以分为层次聚类、原型聚类、分布聚类、密度聚类等几类； 3,聚类分析的一个重要应用是对用户进行分组与归类。
2019-12-30

3
ifelse
学习打卡
2023-05-04归属地：浙江


Geek_HanX2
层次聚类：原型聚类【质心代类】：K-Means【有EM的雏形】分布聚类【参数估计】：EM 密度聚类【密度可达】：DBSCAN【两个超参】
2022-11-28归属地：湖南


Geek_HanX2
K-means模型的训练受初值影响很大
2022-11-28归属地：湖南


张伟
按照目的基于GT评价，准确性指标：类内纯度类间散度。性能指标，实时聚类/离线聚类所能处理的数据容量和时间
2020-03-23



收起评论