29丨EM聚类(下):用EM算法对王者荣耀英雄进行划分
该思维导图由 AI 生成,仅供参考
如何使用 EM 工具包
- 深入了解
- 翻译
- 解释
- 总结
本文介绍了如何使用EM算法对王者荣耀英雄进行聚类分析的实战应用。作者首先介绍了EM算法的聚类框架,以及在Python中使用第三方EM算法工具包进行聚类分析的具体步骤。文章重点讲解了如何使用GMM高斯混合模型对英雄数据进行聚类,并展示了数据加载、探索、可视化分析、数据预处理和聚类模型构造等环节。通过实例展示,读者可以了解如何利用EM算法对复杂的英雄数据进行聚类分析,从而发现英雄之间的特性和关联,为玩家在游戏中的英雄选择提供参考。此外,文章还提到了聚类结果的评估方式和聚类算法在数据挖掘中的应用。总的来说,本文内容涵盖了EM算法的原理和实际应用,对对聚类算法感兴趣的读者具有一定的参考价值。
《数据分析实战 45 讲》,新⼈⾸单¥59
全部留言(35)
- 最新
- 精选
- 哆哩咪fa👻才买的课,请问有vx群或者可以相互沟通的群么
作者回复: 找运营加微信群
2019-02-18514 - 高桥凉瓜之所以热力图不显示最大攻速和攻击范围,是因为这两列的数据的类型是string,想要在热力图也显示这两项的话可以在构建热力图前就进行数据清洗: ``` data[u'最大攻速'] = data[u'最大攻速'].apply(lambda x: float(x.strip('%'))/100) data[u'攻击范围']=data[u'攻击范围'].map({'远程':1,'近战':0}) ```
作者回复: Good Job
2019-03-27211 - 許敲敲最后一个 data_to_csv()也最好加上encoding='gb18030';不然会乱码
编辑回复: 嗯 中文的话需要需要注意这个。
2019-02-197 - 从未在此问下老师,当几个特征相关性较大时,怎么选择最具有代表性的那个呢
编辑回复: 相关性比较大的时候,可以任意选择其中一个,因为这些指标相关性比较大,所以你选择哪一个其实结果都相差不大。当然对于相关性比较大,不同人的理解是不同的额,比如你可以定义相关性大于0.9或者相关性大于0.8。
2019-02-184 - 周飞1.不做特征选择的情况下,得到的Calinski_Harabaz 分数 大约是 23.1530273621 ,做特征选择的情况下 大约是:21.2142191471. 2.聚类个数为3的时候 Calinski_Harabaz 分数 大约是 22.9119297953 。聚类个数为30的时候 Calinski_Harabaz 分数 大约是 21.2142191471
作者回复: Good Job
2019-04-2722 - 从未在此还有,非数值型的特征怎么进行聚类?
编辑回复: 非数值的类型需要先转化为数值类型,比如“远程”转化为1,“近战”转化为0。这样才能做矩阵的运算。
2019-02-1822 - McKee Chen分别针对以下三种情况进行聚类操作,得到的Calinski_Harabaz 分数分别为: 1.使用所有特征数,聚类类别为30,得分为33.286020580818494 2.特征数降维处理后,聚类类别为30,得分为27.964658388803077 3.特征数降维处理后,聚类类别为3,得分为19.358008332914284 根据以上结果,可以总结出:当聚类类别数相同时,特征数越多,聚类效果越好;当进行特征数降维处理时,聚类类别数越多,聚类效果越好
作者回复: 加油 总结的不错
2021-01-131 - Ricky问个问题:关于calinski_harabaz_score的使用,同一套样本数据,用不同的模型计算prediction后,对比值得大小么? 谢谢!
作者回复: CH指标通过计算类中各点与类中心的距离平方和来度量类内的紧密度,通过计算各类中心点与数据集中心点距离平方和来度量数据集的分离度,CH指标由分离度与紧密度的比值得到。从而,CH值越大代表着类自身越紧密,类与类之间越分散,即聚类结果的更优。
2020-04-16 - Simon'攻击范围' 特征进行映射为0,1后,是不是可以不用z-score了?
作者回复: 是的。如果特征取值范围已经在0~1之间,确实无需再进行数据规范化
2020-04-09 - groot888热力图展现出来,相关的分数大,是不是也可以当做一种聚类算法。
作者回复: 可以尝试。或者如果两个特征相关系数= ±1,这种情况称为多重共线性,可以考虑去掉一个特征。
2020-01-222