作者回复: 理解正确
作者回复: 这是个很新颖的角度来理解信息熵
作者回复: 感谢支持,后面我会继续努力深入浅出
作者回复: 正确
作者回复: 这可能也是为什么汉语这么难学的原因吧😆
作者回复: 是的
作者回复: 这篇讲座暂时还没有设计独立事件的熵计算
作者回复: 虽然信息量减少了,但是对分类这个应用而言,增加了分组内的纯净度,算是“增益”(英文Gain,也可以理解为获益)了
作者回复: 举个形象的例子,比如说最近本地区天天下雨,如果明天仍然有很高的概率会下雨,我告诉你“明天下雨”,你就觉得这个信息量不大,因为即使我不说,你也知道明天会下雨,也会带雨伞出门。如果本地区几十年以来从未下过雪,我告诉你“明天要下雪”,那么这个对你来说,这是个极低概率的事件,你没有想到它会发生,这句话包含了很大的信息量,它可能会改变你明天出门的行为,比如买一双防滑靴以备出门之用。
作者回复: 如果决策树是用于分类的,没有必要细分到每一个样本,我们只需要确保划分后,每一组里所有的样本都属于同一个分类,那么就很完美了。如果细分到每个样本,就是过拟合了。
作者回复: H(x)=−log(P(x),2),这里是指单个变量取值时候获得的信息量