• Geek_59
    2019-12-30
    极客时间
    21天打卡行动 12/21
    <<人工智能基础课14>>聚类分析
    回答老师问题:由于其无监督学习的特性,在评估聚类方法时也就不存在绝对客观的标准。尤其是在数据多样化、高维化、非均衡化的趋势下,评价聚类方法的难度甚至超出了设计聚类方法的难度。那么在评价聚类方法时应该考虑哪些因素呢?
    1,分析:聚类分析分几类?1,直接聚类法;2,最短距离聚类法;3,最远距离聚类法;通过类别分析,我们应该考虑样本的相似度,特征,或者外在平衡点;曾经有个考题:影响聚类算法效果的主要原因有()a,特征选取;b,模式相似性测度;c,分类准则;d,已知类别的样本质量;这些都有影响,其中最主要的是C,分类准则;
    今日所学:
    0,开篇点题:聚类分析是一种无监督学习方法,其目标是学习没有分类标记的训练样本,以揭示数据的内在性质和规律;
    1,分类是先确定类别再划分数据;聚类则是先划分数据再确定类别;
    2,一是如何判定哪些样本属于同一“类”,二是怎么让同一类的样本“聚”在一起;
    3,解决哪些样本属于同一“类”的问题需要对相似性进行度量;
    4,度量相似性最简单的方法就是引入距离测度;
    5,在聚类分析中常用的距离是“闵可夫斯基距离”;
    6,确定了“类”的标准之后,接下来就要考虑如何让同一类的样本“聚”起来,也就是聚类算法的设计;
    7,层次聚类又被称为基于连接的聚类,其核心思想源于样本应当与附近而非远离的样本具有更强的相关性;
    8,层次聚类对数据集的划分既可以采用自顶向下的拆分策略,也可以采用自底向上的会聚策略,后者是更加常用的方法;
    9,根据距离计算方式的不同,会聚算法可以分为单链接算法、全链接算法和均链接算法;
    10,原型聚类又被称为基于质心的聚类,其核心思想是每个聚类都可以用一个质心表示;
    11,k 均值算法是典型的原型聚类算法,它将聚类问题转化为最优化问题;
    12,“取平均 - 重新计算中心 - 重新聚类”的过程将不断迭代,直到聚类结果不再变化为止;
    13,分布聚类又被称为基于概率模型的聚类,其核心思想是假定隐藏的类别是数据空间上的一个分布;
    14,基于概率模型的聚类实质上就是进行参数估计,估计出聚类的参数集合以使似然函数最大化。期望极大算法(Expectation Maximization algorithm)是典型的基于概率模型的聚类方法。
    15,EM 算法执行的过程包括“期望”和“最大化”两个步骤;
    16,密度聚类又被称为基于密度的聚类,其核心思想是样本分布的密度能够决定聚类结构;
    17,最流行的基于密度的聚类方法是利用噪声的基于密度的空间聚类(Density-Based Spatial Clustering of Applications with Noise),简称 DBSCAN;
    18,现代聚类方法还包括谱聚类和模糊聚类等等;
    名词:聚类,非负性,同一性,对称性,直递性,欧式距离,单链接算法、全链接算法,均链接算法,贪心策略
    总结:老师讲过的重点:
    0,聚类分析是一种无监督学习方法,通过学习没有分类标记的训练样本发现数据的内在性质和规律;
    1,数据之间的相似性通常用距离度量,类内差异应尽可能小,类间差异应尽可能大;
    2,根据形成聚类方式的不同,聚类算法可以分为层次聚类、原型聚类、分布聚类、密度聚类等几类;
    3,聚类分析的一个重要应用是对用户进行分组与归类。
    展开
    
    
  • 十八哥
    2019-06-17
    从价值导向反推哪些变量是影响最大的。

    作者回复: 逆向思维的过程

    
    
  • Wesley
    2018-11-30
    评价聚类方法的难度甚至超出了设计聚类方法的难度
    --不能同意太多,一般需要根据实际应用的业务指标来评估。

    作者回复: 使用聚类方法一定得具体问题具体分析,是典型的 不管白猫黑猫,抓住耗子就是好猫。

    
    
我们在线,来聊聊吧