018 | The Web 2018论文精读:如何从文本中提取高元关系?
洪亮劼
该思维导图由 AI 生成,仅供参考
今天我们来看万维网大会 2018 的最佳论文,标题是“HighLife: Higher-arity Fact Harvesting”。作者都来自德国著名的“马克斯·普朗克计算机科学研究所”(Max Plank Institute for Informatics)。这个研究所是德国最大的基础科学研究组织“马克斯·普朗克学会”(Max-Planck-Gesellschaft)的分支研究机构,致力于在科学刊物上发表新的研究成果,开发软件系统和培养新的科学研究工作者。马克斯·普朗克学会因其杰出的科研成果在德国甚至全世界都获得了很高的声誉。
什么是高元关系?
这篇论文主要是涉及到高元(Higher-Artiy)关系的提取。那什么是高元关系呢?
传统的信息提取和知识库主要是关注二元关系的提取和存储。例如,我们可以知道居里夫人分别于 1903 年和 1911 年获得了诺贝尔奖。但是关系数据库中并不知道这两年的奖项分别是物理和化学。同理,我们可以在知识库中存放居里夫人获得过诺贝尔物理奖以及诺贝尔化学奖的信息,但是就无法和 1903 年和 1911 年这两个信息进行配对。通过这个例子我们可以看出,基于二元关系的信息提取和知识库虽然简单易行,但是有其先天的局限性。
这篇论文要讨论的高元关系,就是希望能够直接对“居里夫人在 1903 年获得了诺贝尔物理学奖”这样的三元甚至更高元的关系进行提取和表征。作者们认为这篇论文是较少的关注高元关系提取的先驱工作。
论文的主要贡献
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
文章介绍了万维网大会2018的最佳论文“HighLife: Higher-arity Fact Harvesting”,重点讨论了如何从文本中提取高元关系。高元关系指的是三元或更高元的关系,相较于传统的二元关系,它能够更全面地表征信息。论文的主要贡献在于提出了一种针对高元关系的信息提取方法,并通过实验验证了其高精度的效果。该方法利用种子事实作为监督信息来学习模式,并通过限制推理来筛选和清理提取到的高元关系,从而解决了信息提取中存在的噪声和目标浮动问题。论文还介绍了提出方法的实验效果,表明其能够达到平均接近80%~90%的精度,仅需几百个种子事实即可取得良好结果。这篇论文的研究领域较为新颖,其方法对于从文本中提取高元关系具有重要意义,可望在知识库构建、自然语言处理等领域得到广泛应用。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》,新⼈⾸单¥98
《AI 技术内参》,新⼈⾸单¥98
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(2)
- 最新
- 精选
- 刘军是否可以用在上市公司公告分析中?2018-07-291
- sky感觉可以用到推荐系统2018-06-02
收起评论