极客时间-轻松学习，高效学习-极客邦



2017-12-29

大佬，能有简单的项目或习题，让我们实践下不？



 8
王杰

2018-01-30

讲的简洁易懂，回家途中看完了！一个问题：如果样本先降维去除属性相关性再用朴素贝叶斯分类，效果是不是就很好？

作者回复: 原则上是会取得良好效果，但应用在实际问题中还要看真实表现。



 7
七月

2017-12-30

可以用对数吗



 3
秦龙君

2017-12-29

学习了。我想问老师一个问题，所有文章更新完了，有集结出书的计划吗？我感觉平时看完后，再用书重新看一遍，效果更好。

池建强回复: 会出的



 2
杜浩

2018-02-28

朴素贝叶斯为什么是期望风险最小化的这点还是不太理解

作者回复: 后验概率最大化意味着把实例划分到最可能的类中，使分类的错误概率最小，也就是期望风险最小。



 1
吴文敏

2018-02-22

如果每个样本包含 100 个属性，每个属性的取值都可能有 100 种，那么对分类的每个结果，要计算的条件概率数目就是 100^2=10000 感觉这里应该是100^100

作者回复: 没错，应该是每个属性的取值都有2种。



 1
Geek_59

2019-12-25

打卡第七天(7/21):
<<人工智能基础课09>>朴素贝叶斯方法
回答老师问题:
在使用高维数据集时，每个样本都会包含大量的属性，这时属性条件概率连乘的结果会非常接近于零，导致下溢的发生。如何防止因概率过小造成的下溢呢？
这样想到,得到<<吴军数学课>>42讲中古德-图灵折扣估计,预防黑天鹅事件.吴军老师讲古德用每一次的概率加一除总数,这样的结果不至于出现为0的情况,但最后估值肯定不准确,用朴素贝叶斯方法做分类应该没问题,我特意重读了吴军老师的课,老师还讲了吴军老师导师创的差值法,这个更接近,更精确,最后还提到备用法;等这些方法,都能最大程度防止因概率过小造成的下溢;我个人看法;
今日所学:朴素贝叶斯方法,将连续取值的输入映射为离散取值的输出，算法的名字叫作“朴素贝叶斯方法”。
其基本思想在于分析待分类样本出现在每个输出类别中的后验概率，并以取得最大后验概率的类别作为分类的输出.
名词:类先验概率,类似然概率(条件独立性假设保证了所有属性相互独立，互不影响，每个属性独立地对分类结果发生作用),这正是朴素贝叶斯方法的“朴素”之处，通过必要的假设来简化计算，并回归问题的本质;
1,从模型最优化的角度观察，朴素贝叶斯分类器是平均意义上预测能力最优的模型，也就是使期望风险最小化;
2,影响朴素贝叶斯的分类的是所有属性之间的依赖关系在不同类别上的分布，而不仅仅是依赖关系本身;
3,半朴素贝叶斯分类器考虑了部分属性之间的依赖关系，既保留了属性之间较强的相关性，又不需要完全计算复杂的联合概率分布。常用的方法是建立独依赖关系：假设每个属性除了类别之外，最多只依赖一个其他属性。由此，根据属性间依赖关系确定方式的不同，便衍生出了多种独依赖分类器。
4,朴素贝叶斯分类器的应用场景非常广泛。它可以根据关键词执行对一封邮件是否是垃圾邮件的二元分类，也可以用来判断社交网络上的账号到底是活跃用户还是僵尸粉。在信息检索领域，这种分类方法尤为实用。总结起来，以朴素贝叶斯分类器为代表的贝叶斯分类方法的策略是：根据训练数据计算后验概率，基于后验概率选择最佳决策。
总结:
1,朴素贝叶斯方法利用后验概率选择最佳分类，后验概率可以通过贝叶斯定理求解；
2,朴素贝叶斯方法假定所有属性相互独立，基于这一假设将类条件概率转化为属性条件概率的乘积；
3,朴素贝叶斯方法可以使期望风险最小化；
4,影响朴素贝叶斯分类的是所有属性之间的依赖关系在不同类别上的分布。

展开




吴凌华

2019-10-30

条件独立性，本身就是思维模式的问题，可能常识并不正确




胖胖胖

2019-07-04

概率取对数，把连乘变成连加




隔壁老任

2018-11-08

老师你好，请教俩问题，1.第一段有句话有点懵，朴素贝叶斯是将连续输入转化为离散输出么？我目前简单的，感觉都是离散输入到离散输出，属性的取值也多是离散的，如果是连续的，数量就太大了
2.同最后一个问题，因为朴素贝叶斯是用的后验概率相乘，貌似训练一次后，参数就不会变了？后续的的参数更新一般用什么方法呢？
谢谢

作者回复: 1. 这句话的本义是将输入数据转化成分类结果，和回归问题形成对比。连续属性也是可以处理的，但需要离散化的过程，也能直接计算。
2. 这些传统方法不像深度学习，需要一轮一轮地训练。一波数据过来，参数就确定了，要更新就得用新的数据。




wdf

2018-09-22

老师如果朴素贝叶斯算法，只在乎分类是否正确。是否他给出的概率值就参考意义不大？如果给出是正立的，赵军，只有一个是0.9，一个是0.6是不是很难说，是有区别的。

作者回复: 后验概率归一化之后和应该为1，那么0.9和0.6就应该是0.6和0.4。即使不归一化，更大的0.9也说明这个样本更像正例。




夏震华(围巾)

2018-03-26

在使用高维数据集时，每个样本都会包含大量的属性，这时属性条件概率连乘的结果会非常接近于零，导致下溢的发生。如何防止因概率过小造成的下溢呢？
都乘个100，放大了，然后到了后面在统一除去?如何

作者回复: 这可以看成取概率对数的特例




啊哈哈

2018-03-02

根据训练数据计算后验概率，基于后验概率选择最佳决策。




Andy

2018-01-16

王老师您好，感觉朴素贝叶斯不像逻辑回归那样有个loss func 可以做权重的学习，那么朴素贝叶斯训练好的模型怎么才能持久化呢？

作者回复: 其实朴素贝叶斯也是有损失函数的，它的损失函数就是分类错误数的数学期望，让这个函数最小化和后验概率最大化是等价的，因而算法本身就暗含了最优化的过程。



