002 | 精读2017年KDD最佳研究论文

洪亮劼



该思维导图由 AI 生成，仅供参考

前面我们介绍过 KDD 大会的时间检验奖，每年大会的另外一个亮点奖项就是最佳论文奖，有两类，一类是最佳研究论文，一类是最佳应用数据科学论文。今天我就先来说说前者。
大会每年都会在众多的学术研究论文中，选择最有新意和价值的研究论文，评选出最佳研究论文的第一名和第二名。从过去十多年的经验来看，KDD 历年的最佳研究论文，都会对之后很多领域的研究有开创性的影响。因此，不论是从阅读经典文献的角度，还是从学习最新研究成果的角度来说，认真分析和探讨每年的最佳研究论文都是一个不错的选择。
今天，我就带你认真剖析一下 KDD 2017 年的最佳研究论文《通过挖掘类比关系加速创新》（Accelerating Innovation Through Analogy Mining）。
作者群信息介绍第一作者汤姆·霍普（Tom Hope）来自耶路撒冷的希伯来大学（The Hebrew University of Jerusalem），计算机博士，在读第三年。同时，他还是英特尔以色列的资深数据科学员，对深度学习的很多方面都有研究。目前他正在写一本基于 TensorFlow 的深度学习简明技术书籍。
第四作者达夫娜·沙哈夫（Dafna Shahaf）是霍普的博士导师，目前在希伯来大学计算机系任助理教授。达夫娜于 2012 年从卡内基梅隆大学博士毕业。她曾经在微软研究院以及富士通公司实习，并在斯坦福大学攻读博士后。达夫娜的论文曾获得 2010 年的 KDD 最佳研究论文，可以说她一直站在机器学习研究的前沿。
第二作者乔尔（Joel Chan）是来自卡内基梅隆大学人机交互学院的科学家。乔尔于 2014 年从匹兹堡大学毕业，获得认知心理学博士学位。他一直在人机交互领域进行研究。
第三作者安尼凯特·科图（Aniket Kittur）是来自卡内基梅隆大学人机交互学院的副教授。他于 2009 年从加州大学洛杉矶分校毕业，获得认知心理学博士学位，之后就一直在卡内基梅隆大学任教。
从整个作者群的情况来看，这篇文章是一个比较典型的机器学习技术与人机交互领域的交叉成果。
论文的主要贡献我们先来看一下这篇文章的主要贡献。当然，要想深入理解这篇文章的贡献，我们还要先弄明白，这篇文章主要解决的是一个什么场景下的问题。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

KDD 2017年最佳研究论文《通过挖掘类比关系加速创新》介绍了一种自动化方法，利用海量无结构文本数据挖掘类比场景，以帮助加速创新。文章提出了一种解决创新关键步骤的方法，即如何找到合适且有效的类比案例。通过使用监督学习机制和深度模型RNN，作者们成功从海量数据中提取类比信息，并证实了该方法的有效性。实验结果显示，该方法在提取类比信息和推荐类比场景方面取得了显著的效果，比传统文本处理方法更加有效。这篇论文的研究成果对于机器学习技术与人机交互领域具有重要的交叉成果，为读者了解最新研究成果和学习相关领域提供了重要参考。文章的核心方法包括目的和机制的概念、监督学习机制和深度模型RNN的应用，以及利用TF-IDF值加权的方法来表达文本信息。总体而言，这篇论文为快速创新提供了一种自动化的类比信息挖掘方法，具有重要的技术特点和实际应用前景。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《AI 技术内参》，新⼈⾸单¥98

立即购买

登录后留言

全部留言(7)

最新
精选

Luna
你好，对于论文的核心方法部分有一点疑虑，双向rnn的输入以及输出分别是什么呢？另外，提一个小小的建议，在讲解核心方法部分时，可否加一些简单的例子和图示？谢谢！
作者回复: 好的，尽量。
2017-10-31
2
6
深白浅黑
听了前两篇文章，感觉只是表面列举了论文作者信息、论文解决问题和解决方法，并不能给我带来提升，如果我需要用到的话，还是需要自己查看论文内容，了解详细的实现方法。对我来说没有意义，与“精度”这个词不符。
2019-09-10
1
14
范深
所以这篇文章的主要创新点是提出“目的”和“机制”的文本作用？似乎没有看到算法理论上的其他创新。那么它的推广价值在哪呢？
2017-10-30

4
yangguixiu18
过于敷衍了，这钱花的不值，我不想知道作者是谁，只想了解如何实现这里提出的方法，推导过程以及训练过程
2021-04-20

3
黄德平
信息量好大，这一篇篇文章，想搞清楚所有细节很不容易，但是掌握核心思想也是很有帮助的
2018-11-29

1
胡杰
感觉无监督的方式准确率可能是个大问题。
2020-02-23


求渔
完全无监督主要是聚类的方式来获取信息，信息的提取也不好结构化，而且如何区分目的和机制也比较难实现，至少目前比较难实现，可能未来有什么方法可以配合的时候会有可能吧
2019-09-09



收起评论