011 | 精读2017年NIPS最佳研究论文之二：KSD测试如何检验两个分布的异同？

洪亮劼



该思维导图由 AI 生成，仅供参考

本周我们来分析和探讨 NIPS 2017 上的三篇最佳论文。周一我们分享的文章主要研究的是一种“健壮的优化问题”，也就是说我们在优化一个“损失函数”的时候，不仅要考虑损失函数的“均值”，还要考虑损失函数的“方差”。
今天，我们来看另外一篇最佳论文《线性时间内核拟合优度测试》（A Linear-Time Kernel Goodness-of-Fit Test），讲的是如何来衡量一组数据是否来自于某一个分布。
今天的这篇文章理论性也很强，这里我尝试从更高的维度为你做一个归纳，如果对文章内容感兴趣，建议你一定要去阅读原文。
作者群信息介绍本文一共有五位作者，我们在这里进行一个简要介绍。
第一作者叫维特瓦特·吉特克鲁特（Wittawat Jitkrittum），刚从伦敦大学学院（University College London）的“加斯比计算人脑科学所”（Gatsby Computational Neuroscience Unit）博士毕业。他在博士期间的主要研究是“统计测试”（Statistical Tests），特别是如何利用“核方法”（Kernel Method）来对“分布特征”（Distributional Features）进行测试。吉特克鲁特在泰国完成本科学习，于日本京的东京科技学院（Tokyo Institute Of Technology）获得硕士学位。最近几年，吉特克鲁特已经在 NIPS、ICML、UAI 等会议连续发表了多篇高质量论文，可以说是统计测试界的学者新秀。
第二作者许文凯（Wenkai Xu）是加斯比计算人脑科学所的一名博士生。
第三作者佐尔坦·萨博（Zoltán Szabó）来自法国一所著名的理工大学“巴黎综合理工学院”（École Polytechnique）。萨博之前也曾在加斯比计算人脑科学所工作过，目前在巴黎综合理工学院任职研究副教授（类似于研究员），长期从事核方法、信息论（Information Theory）、统计机器学习等方面的研究。
第四作者福水健次（Kenji Fukumizu）是“统计数学学院”（The Institute of Statistical Mathematics）的教授，长期从事核方法的研究，可以说是这方面的专家。
最后一个作者阿瑟·格里顿（Arthur Gretton）是加斯比计算人脑科学所的机器学习教授，长期从事机器学习，特别是核方法的研究。他的论文有 9 千多次的引用数。
论文的主要贡献和核心方法我们首先来看一下这篇文章的主要贡献，理解这篇文章主要解决了什么场景下的问题。
在一般的建模场景里，我们常常会对一组数据提出一个模型，来描述产生这些数据背后的过程。这个过程我们通常是看不见的，是一个隐含的过程。那么，当我们提出了模型之后，如何知道用这个模型描述现实就是准确的呢？这时候我们就需要用到一些统计检验（Statistical Testing）的方法。
一种比较普遍的方法，那就是假设我们的模型是 P，而数据的产生分布是 Q。说得直白一些，就需要去验证 P 是不是等于 Q，也就是需要验证两个分布是否相等。一个基本的做法就是，从 P 里“产生”（Generate）一组样本，或者叫一组数据，然后我们已经有了一组从 Q 里产生的数据，于是用“两个样本假设检验”（Two Sample Tests）来看这两组数据背后的分布是否相等。
这个想法看似无懈可击，但是在实际操作中往往充满困难。最大的操作难点就是从 P 中产生样本。比如 P 是一个深度神经网络模型，那从中产生样本就不是一个简单且计算效率高的流程，这就为基于“两个样本假设检验”带来了难度。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

NIPS 2017最佳研究论文《线性时间内核拟合优度测试》介绍了一种新的方法，KSD测试，用于检验两个分布的异同。该方法通过构建特殊的运算符，使得传统的通过样本来检验两个分布的异同的方法不再依赖于目标分布的样本，并且能够达到线性计算速度。文章的主要贡献在于提出了核斯特恩差异（KSD）的概念，通过这一方法，可以让两个分布的比较不依赖于从P中得到样本，仅依赖于P的一个所谓的“打分函数”。作者还在实验中使用了受限波兹曼机（RBM）进行验证，证明了KSD方法的有效性和性能优势。这篇论文的理论性强，但实验结果直观，展示了KSD方法在机器学习中的潜在应用。文章的作者群包括来自伦敦大学学院、加斯比计算人脑科学所、法国巴黎综合理工学院等机构的学者，展现了该领域的专业性和前沿性。这一研究成果对于机器学习领域的发展具有重要意义，为读者提供了一种新的思路和方法。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 技术内参》，新⼈⾸单¥98

立即购买

登录后留言

全部留言(2)

最新
精选

林彦
神经网络里的常用损失函数，交叉熵依据的K-L散度是衡量2种概率分布之间的差异。但是不符合对称性，因此不能算一种距离的度量
2018-01-31

5
林彦
聚类里面也会衡量分布的距离来评估聚类的效果。不知道问题理解对不对。期望看到更多人的答案和得到老师的提示。谢谢
2018-01-31
1


收起评论