极客时间-轻松学习，高效学习-极客邦

Geek_59

2019-12-30

极客时间
21天打卡行动 12/21
<<人工智能基础课14>>聚类分析
回答老师问题:由于其无监督学习的特性，在评估聚类方法时也就不存在绝对客观的标准。尤其是在数据多样化、高维化、非均衡化的趋势下，评价聚类方法的难度甚至超出了设计聚类方法的难度。那么在评价聚类方法时应该考虑哪些因素呢？
1,分析:聚类分析分几类?1,直接聚类法;2,最短距离聚类法;3,最远距离聚类法;通过类别分析,我们应该考虑样本的相似度,特征,或者外在平衡点;曾经有个考题:影响聚类算法效果的主要原因有()a,特征选取;b,模式相似性测度;c,分类准则;d,已知类别的样本质量;这些都有影响,其中最主要的是C,分类准则;
今日所学:
0,开篇点题:聚类分析是一种无监督学习方法，其目标是学习没有分类标记的训练样本，以揭示数据的内在性质和规律;
1,分类是先确定类别再划分数据；聚类则是先划分数据再确定类别;
2,一是如何判定哪些样本属于同一“类”，二是怎么让同一类的样本“聚”在一起;
3,解决哪些样本属于同一“类”的问题需要对相似性进行度量;
4,度量相似性最简单的方法就是引入距离测度;
5,在聚类分析中常用的距离是“闵可夫斯基距离”;
6,确定了“类”的标准之后，接下来就要考虑如何让同一类的样本“聚”起来，也就是聚类算法的设计;
7,层次聚类又被称为基于连接的聚类，其核心思想源于样本应当与附近而非远离的样本具有更强的相关性;
8,层次聚类对数据集的划分既可以采用自顶向下的拆分策略，也可以采用自底向上的会聚策略，后者是更加常用的方法;
9,根据距离计算方式的不同，会聚算法可以分为单链接算法、全链接算法和均链接算法;
10,原型聚类又被称为基于质心的聚类，其核心思想是每个聚类都可以用一个质心表示;
11,k 均值算法是典型的原型聚类算法，它将聚类问题转化为最优化问题;
12,“取平均 - 重新计算中心 - 重新聚类”的过程将不断迭代，直到聚类结果不再变化为止;
13,分布聚类又被称为基于概率模型的聚类，其核心思想是假定隐藏的类别是数据空间上的一个分布;
14,基于概率模型的聚类实质上就是进行参数估计，估计出聚类的参数集合以使似然函数最大化。期望极大算法（Expectation Maximization algorithm）是典型的基于概率模型的聚类方法。
15,EM 算法执行的过程包括“期望”和“最大化”两个步骤;
16,密度聚类又被称为基于密度的聚类，其核心思想是样本分布的密度能够决定聚类结构;
17,最流行的基于密度的聚类方法是利用噪声的基于密度的空间聚类（Density-Based Spatial Clustering of Applications with Noise），简称 DBSCAN;
18,现代聚类方法还包括谱聚类和模糊聚类等等;
名词:聚类,非负性,同一性,对称性,直递性,欧式距离,单链接算法、全链接算法,均链接算法,贪心策略
总结:老师讲过的重点:
0,聚类分析是一种无监督学习方法，通过学习没有分类标记的训练样本发现数据的内在性质和规律；
1,数据之间的相似性通常用距离度量，类内差异应尽可能小，类间差异应尽可能大；
2,根据形成聚类方式的不同，聚类算法可以分为层次聚类、原型聚类、分布聚类、密度聚类等几类；
3,聚类分析的一个重要应用是对用户进行分组与归类。

展开




十八哥

2019-06-17

从价值导向反推哪些变量是影响最大的。

作者回复: 逆向思维的过程




Wesley

2018-11-30

评价聚类方法的难度甚至超出了设计聚类方法的难度
--不能同意太多，一般需要根据实际应用的业务指标来评估。

作者回复: 使用聚类方法一定得具体问题具体分析，是典型的不管白猫黑猫，抓住耗子就是好猫。



