打卡第七天(7/21):
<<人工智能基础课09>>朴素贝叶斯方法
回答老师问题:
在使用高维数据集时,每个样本都会包含大量的属性,这时属性条件概率连乘的结果会非常接近于零,导致下溢的发生。如何防止因概率过小造成的下溢呢?
这样想到,得到<<吴军数学课>>42讲中古德-图灵折扣估计,预防黑天鹅事件.吴军老师讲古德用每一次的概率加一除总数,这样的结果不至于出现为0的情况,但最后估值肯定不准确,用朴素贝叶斯方法做分类应该没问题,我特意重读了吴军老师的课,老师还讲了吴军老师导师创的差值法,这个更接近,更精确,最后还提到备用法;等这些方法,都能最大程度防止因概率过小造成的下溢;我个人看法;
今日所学:朴素贝叶斯方法,将连续取值的输入映射为离散取值的输出,算法的名字叫作“朴素贝叶斯方法”。
其基本思想在于分析待分类样本出现在每个输出类别中的后验概率,并以取得最大后验概率的类别作为分类的输出.
名词:类先验概率,类似然概率(条件独立性假设保证了所有属性相互独立,互不影响,每个属性独立地对分类结果发生作用),这正是朴素贝叶斯方法的“朴素”之处,通过必要的假设来简化计算,并回归问题的本质;
1,从模型最优化的角度观察,朴素贝叶斯分类器是平均意义上预测能力最优的模型,也就是使期望风险最小化;
2,影响朴素贝叶斯的分类的是所有属性之间的依赖关系在不同类别上的分布,而不仅仅是依赖关系本身;
3,半朴素贝叶斯分类器考虑了部分属性之间的依赖关系,既保留了属性之间较强的相关性,又不需要完全计算复杂的联合概率分布。常用的方法是建立独依赖关系:假设每个属性除了类别之外,最多只依赖一个其他属性。由此,根据属性间依赖关系确定方式的不同,便衍生出了多种独依赖分类器。
4,朴素贝叶斯分类器的应用场景非常广泛。它可以根据关键词执行对一封邮件是否是垃圾邮件的二元分类,也可以用来判断社交网络上的账号到底是活跃用户还是僵尸粉。在信息检索领域,这种分类方法尤为实用。总结起来,以朴素贝叶斯分类器为代表的贝叶斯分类方法的策略是:根据训练数据计算后验概率,基于后验概率选择最佳决策。
总结:
1,朴素贝叶斯方法利用后验概率选择最佳分类,后验概率可以通过贝叶斯定理求解;
2,朴素贝叶斯方法假定所有属性相互独立,基于这一假设将类条件概率转化为属性条件概率的乘积;
3,朴素贝叶斯方法可以使期望风险最小化;
4,影响朴素贝叶斯分类的是所有属性之间的依赖关系在不同类别上的分布。
展开