贝叶斯推断与过滤垃圾邮件
[美] 保罗•格雷厄姆
阮一峰 / 2013-03-29
本文是《黑客与画家》第 8 章“防止垃圾邮件的一种方法”的通俗解释,详细讲解了相关概念和过滤垃圾邮件的算法细节。
什么是贝叶斯推断
贝叶斯推断是一种统计学方法,用来估计统计量的某种性质。它是贝叶斯定理的应用。英国数学家托马斯·贝叶斯(Thomas Bayes)在 1763 年发表的一篇论文中,首先提出了这个定理。
贝叶斯推断与其他统计学推断方法截然不同。它建立在主观判断的基础上,也就是说,你可以不需要客观证据,先估计一个值,然后根据实际结果不断修正。正是因为它的主观性太强,曾经遭到许多统计学家的诟病。
贝叶斯推断需要大量的计算,因此历史上很长一段时间无法得到广泛应用。只有计算机诞生以后,它才获得真正的重视。人们发现,许多统计量是无法事先进行客观判断的,而互联网时代出现的大型数据集,再加上高速运算能力,为验证这些统计量提供了方便,也为应用贝叶斯推断创造了条件,它的威力正在日益显现。
贝叶斯定理
要理解贝叶斯推断,必须先理解贝叶斯定理。后者实际上就是计算“条件概率”的公式。
所谓条件概率,就是指在事件发生的情况下,事件发生的概率,用来表示。
从上图可以清楚地看到在事件发生的情况下,事件发生的概率就是除以:
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
贝叶斯推断在过滤垃圾邮件中的应用是一项基于统计学方法的技术,通过修正先验概率以得到更接近事实后验概率。本文详细讲解了贝叶斯推断的原理和应用,并介绍了贝叶斯过滤器在识别垃圾邮件方面的优势。通过建立历史资料库,贝叶斯过滤器不断调整提高准确率,具有高效过滤和自我学习功能。文章举例说明了贝叶斯推断在识别垃圾邮件中的应用,以及如何计算垃圾邮件的概率。此外,还介绍了联合概率的计算方法,以及如何选出邮件中概率最高的词语进行判断。最终的计算公式为P=\frac{\cdots }{\cdots }+(1-P_1)(1-P_2)\cdots (1-P_n),并指出了用于比较的阈值。这篇文章深入浅出地介绍了贝叶斯推断和过滤器的原理及应用,对读者理解和应用这一统计学方法具有重要意义。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《黑客与画家》
《黑客与画家》
立即购买
登录 后留言
全部留言(1)
- 最新
- 精选
- GEEKBANG_7034423推导全概率公式的时候,“在上一节的推导当中,已知”这里引用公式的时候有个笔误,不应该是+号2024-02-24归属地:浙江
收起评论