作者回复: 可以逐个理解,每次理解一点都是进步👍
作者回复: 这里主要是通用性,对于CART算法确实可以将m简写为2,对于其他使用基尼指数的算法仍然保持m
作者回复: 你好,感谢支持,我暂时还没有时间在其他地方发表博文。如果有好的想法写作,当然首选极客时间专栏啦😆。正在和编辑筹划下一个专栏,期待与大家再次交流
作者回复: pj表示第j组元素出现的概率,这里用在某个划分的组之中,第j组元素的数量除以这个划分的元素数量来计算
作者回复: 是的👍
作者回复: 你是指在实际项目中如何获得数据吗?这个要看具体的应用场景和需求,通常的规则是尽量覆盖不同的情况。比如不同时间段、不同用户分组、不同地域等等
作者回复: 由于是标注数据,所以这个n是根据原有分类的标签来看的
作者回复: 这里n和m表示分别表示使用特征划分后形成的分组,以及分类标签形成的分组,这和决策树的分叉是不同的
作者回复: 我在第32篇有详细讲解,你可以参考
作者回复: 因为决策树是一种分类算法,我们有训练样本告诉我们每个数据样本属于何种分类,所以这里的分类、分组都是根据训练样本中的分类标签。
作者回复: 你是指计算信息熵、信息增益和基尼指数?可以使用现成的机器学习包计算,如果希望自己计算也不难,遵循专栏中的公式就可以了。后面我有时间整理一下代码。
作者回复: 好的,后面我会考虑多从公式的角度出发