极客时间
21天打卡行动 12/21
<<人工智能基础课14>>聚类分析
回答老师问题:由于其无监督学习的特性,在评估聚类方法时也就不存在绝对客观的标准。尤其是在数据多样化、高维化、非均衡化的趋势下,评价聚类方法的难度甚至超出了设计聚类方法的难度。那么在评价聚类方法时应该考虑哪些因素呢?
1,分析:聚类分析分几类?1,直接聚类法;2,最短距离聚类法;3,最远距离聚类法;通过类别分析,我们应该考虑样本的相似度,特征,或者外在平衡点;曾经有个考题:影响聚类算法效果的主要原因有()a,特征选取;b,模式相似性测度;c,分类准则;d,已知类别的样本质量;这些都有影响,其中最主要的是C,分类准则;
今日所学:
0,开篇点题:聚类分析是一种无监督学习方法,其目标是学习没有分类标记的训练样本,以揭示数据的内在性质和规律;
1,分类是先确定类别再划分数据;聚类则是先划分数据再确定类别;
2,一是如何判定哪些样本属于同一“类”,二是怎么让同一类的样本“聚”在一起;
3,解决哪些样本属于同一“类”的问题需要对相似性进行度量;
4,度量相似性最简单的方法就是引入距离测度;
5,在聚类分析中常用的距离是“闵可夫斯基距离”;
6,确定了“类”的标准之后,接下来就要考虑如何让同一类的样本“聚”起来,也就是聚类算法的设计;
7,层次聚类又被称为基于连接的聚类,其核心思想源于样本应当与附近而非远离的样本具有更强的相关性;
8,层次聚类对数据集的划分既可以采用自顶向下的拆分策略,也可以采用自底向上的会聚策略,后者是更加常用的方法;
9,根据距离计算方式的不同,会聚算法可以分为单链接算法、全链接算法和均链接算法;
10,原型聚类又被称为基于质心的聚类,其核心思想是每个聚类都可以用一个质心表示;
11,k 均值算法是典型的原型聚类算法,它将聚类问题转化为最优化问题;
12,“取平均 - 重新计算中心 - 重新聚类”的过程将不断迭代,直到聚类结果不再变化为止;
13,分布聚类又被称为基于概率模型的聚类,其核心思想是假定隐藏的类别是数据空间上的一个分布;
14,基于概率模型的聚类实质上就是进行参数估计,估计出聚类的参数集合以使似然函数最大化。期望极大算法(Expectation Maximization algorithm)是典型的基于概率模型的聚类方法。
15,EM 算法执行的过程包括“期望”和“最大化”两个步骤;
16,密度聚类又被称为基于密度的聚类,其核心思想是样本分布的密度能够决定聚类结构;
17,最流行的基于密度的聚类方法是利用噪声的基于密度的空间聚类(Density-Based Spatial Clustering of Applications with Noise),简称 DBSCAN;
18,现代聚类方法还包括谱聚类和模糊聚类等等;
名词:聚类,非负性,同一性,对称性,直递性,欧式距离,单链接算法、全链接算法,均链接算法,贪心策略
总结:老师讲过的重点:
0,聚类分析是一种无监督学习方法,通过学习没有分类标记的训练样本发现数据的内在性质和规律;
1,数据之间的相似性通常用距离度量,类内差异应尽可能小,类间差异应尽可能大;
2,根据形成聚类方式的不同,聚类算法可以分为层次聚类、原型聚类、分布聚类、密度聚类等几类;
3,聚类分析的一个重要应用是对用户进行分组与归类。
展开