AI 技术内参
洪亮劼
Etsy 数据科学主管,前雅虎研究院资深科学家
33455 人已学习
新⼈⾸单¥98
登录后,你可以任选6讲全文学习
课程目录
已完结/共 166 讲
开篇词 (1讲)
人工智能国际顶级会议 (31讲)
搜索核心技术 (28讲)
推荐系统核心技术 (22讲)
数据科学家与数据科学团队养成 (25讲)
AI 技术内参
15
15
1.0x
00:00/00:00
登录|注册

030 | ACL 2018论文精读:什么是“端到端”的语义哈希?

在推荐系统中的挑战
利用语义哈希的障碍
二元哈希值的语义信息保持
模型表现
方法比较
实验数据集
比率损失平衡问题
语义哈希作为有损源编码问题
编码和解码的神经网络建模
二元哈希向量作为文档的隐变量
编码和解码的流程
建立方法和比率损失理论的联系
提出的端到端语义哈希训练过程
现有方法的问题
语义哈希的优势
语义哈希的重要性和有效性
相似查找和最近邻查找的应用
劳伦斯·卡林
苏勤亮
沈丁涵
思考题
论文实验结果
论文核心方法
论文主要贡献
作者
ACL 2018论文精读

该思维导图由 AI 生成,仅供参考

今天,我们来看今年 ACL 大会的一篇最佳论文提名,题目是《NASH:面向生成语义哈希的端到端神经架构》(NASH: Toward End-to-End Neural Architecture for Generative Semantic Hashing)。
先来简单介绍下论文的作者群,我着重介绍三位。
第一作者沈丁涵(Dinghan Shen 音译)是杜克大学计算机科学系的博士生。他已经发表了多篇自然语言处理和机器学习相关的论文,并且在 NEC 实验室和微软研究院都实习过。
论文的共同第一作者苏勤亮(Qinliang Su 音译),目前是中山大学数据科学与计算机学院的副教授。他在香港大学取得博士学位,之后曾在杜克大学从事博士后研究工作。
作者中的劳伦斯·卡林(Lawrence Carin)是杜克大学教授。卡林是机器学习的权威,也是沈丁涵的导师。

论文的主要贡献

在很多的应用中,我们都需要根据一个已有的文档表达和一个文档库,找到最相近的,或者说最类似的文档。这经常被叫作“相似查找”(Similarity Search)或者“最近邻查找”(Nearest-Neighbor Search),在推荐系统、信息检索、图片检索等领域都有非常广泛的应用。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

ACL 2018论文精读:端到端语义哈希 今年ACL大会的一篇最佳论文提名《NASH:面向生成语义哈希的端到端神经架构》介绍了一种新的端到端语义哈希训练过程。作者提出了解决现有语义哈希方法劣势的方法,并通过实验取得了不错的效果。 论文的主要贡献在于提出了端到端的语义哈希训练过程,避免了现有方法中的两阶段问题。作者将文档生成语义哈希看作编码和解码的流程,并将语义哈希视为比率损失平衡问题,通过建立模型的目标函数来实现平衡。实验结果表明,提出的方法在没有随机噪声的情况下已经比其他方法更好,加入随机噪声后表现更佳。 该论文的核心方法是将文档生成语义哈希视为编码和解码的流程,并将语义哈希视为比率损失平衡问题。作者通过实验展示了学到的二元哈希值能够保持语义信息,且相同文本类别的文档哈希值相似。 在现实中利用语义哈希,尤其在推荐系统中,可能面临一些挑战。读者可以思考在推荐系统中应用语义哈希可能遇到的最大挑战是什么。 这篇论文的研究成果为语义哈希领域带来了新的思路和方法,对于对文档相似度计算有需求的领域具有一定的指导意义。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》
新⼈⾸单¥98
立即购买
登录 后留言

全部留言(2)

  • 最新
  • 精选
  • Ascend
    这个有没有具体实现的代码?
    2021-02-26
  • 技术小生
    老师,只是有个概念。但是,具体实现,还不太清楚
    2020-05-18
收起评论
显示
设置
留言
2
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部