21天打卡行动 9/21
<<人工智能基础课11>>决策树
回答老师问题:
在对决策树算法的分析中,自始至终都没有涉及似然概率和后验概率这些之前频繁出现的概念,但这并不意味着决策树算法与概率论完全无关。如何从概率角度看待决策树呢?
查资料总结,找到很多类似的,把树模型建立好后,把训练数据在模型里跑一下,看最终各类别所在比例,这个比例就成了最后所需的概率了。但这样的答案好像不对,感觉一楼思考的更有深度;
今日所学:
1,开篇老师先解释了决策树算法与素贝叶斯,逻辑回归的不同:
决策树算法是解决分类问题的另一种方法。与基于概率推断的朴素贝叶斯分类器和逻辑回归模型不同,决策树算法采用树形结构,使用层层推理来实现最终的分类。与贝叶斯分类器相比,决策树的优势在于构造过程无需使用任何先验条件,因而适用于探索式的知识发现。
2,决策树是一个包含根节点、内部节点和叶节点的树结构,其根节点包含样本全集,内部节点对应特征属性测试,叶节点则代表决策结果;
3,决策树模型的学习过程包括三个步骤:特征选择、决策树生成和决策树剪枝
4,特征选择决定了使用哪些特征来划分特征空间
5,在特征选择中通常使用的准则是信息增益。机器学习中的信息增益就是通信理论中的互信息,是信息论的核心概念之一;
6,决策树算法——ID3 算法, C4.5 算法,CART 算法
7,无论是 ID3 算法还是 C4.5 算法,都是基于信息论中熵模型的指标实现特征选择,因而涉及大量的对数计算。另一种主要的决策树算法 CART 算法则用基尼系数取代了熵模型
8,CART 分类树算法每次只对某个特征的值进行二分而非多分,最终生成的就是二叉树模型
9,过拟合解决方法:同其他机器学习算法一样,决策树也难以克服过拟合的问题,“剪枝”是决策树对抗过拟合的主要手段,决策树剪枝则是通过主动去掉分支以降低过拟合的风险,提升模型的泛化性能
10,定义决策树整体的损失函数并使之极小化,这等价于使用正则化的最大似然估计进行模型选择
11,决策树的剪枝策略可以分为预剪枝和后剪枝
12,依赖多个特征进行分类决策的就是多变量决策树,在特征空间上,单变量决策树得到的分类边界是与坐标轴平行的分段,多变量决策树的分类边界则是斜线的形式。
名词:决策树,特征选择,决策树生成,决策树剪枝,信息增益,决策树算法,基尼系数,二叉树模型,多变量决策树
总结:
1,决策树是包含根节点、内部节点和叶节点的树结构,通过判定不同属性的特征来解决分类问题;
2,决策树的学习过程包括特征选择、决策树生成、决策树剪枝三个步骤;
3,决策树生成的基础是特征选择,特征选择的指标包括信息增益、信息增益比和基尼系数;
4,决策树的剪枝策略包括预剪枝和后剪枝。
展开