中科院开源深度文本匹配工具MatchZoo
极客时间编辑部
讲述:丁婵大小:1.20M时长:02:37
近日,中科院计算所网络数据科学与技术重点实验室发布了深度文本匹配开源项目 MatchZoo。MatchZoo 是一个 Python 环境下基于 TensorFlow 开发的开源文本匹配工具,可以应用于文本检索、自动问答、复述问题、对话系统等多种应用任务场景。
MatchZoo 基于 Keras 开发,支持 TensorFlow、CNTK 及 Theano,并能在 CPU 与 GPU 上无缝运行。MatchZoo 包括数据预处理,模型构建,训练与评测三大模块。
1. 数据预处理模块(data preparation)
该模块能将不同类型文本匹配任务的数据处理成统一的格式,同时,该模块针对不同的任务需求提供了不同的数据生成器,包括基于单文档的数据生成器、基于文档对的数据生成器、以及基于文档列表的数据生成器。
不同的数据生成器可适用于不同的文本匹配任务,如文本问答、文本对话、以及文本排序等。
2. 模型构建模块(model construction)
该模块基于 Keras,能帮助开发者们快速开发。Keras 中包含了深度学习模型中广泛使用的普通层,如卷积层、池化层、全连接层等。除此之外,在 matchzoo/layers/ 中,研究人员还针对文本匹配定制了特定的层,如动态池化层、张量匹配层等。
这些操作能够快速高效地实现复杂的深度文本匹配的模型,在 matchzoo/models/ 中,研究人员还实现了目前主流的深度文本匹配模型,如 DRMM、DUET、DSSM 等。
3. 训练与评测模块(training and evaluation)
该模块提供了针对回归、分类、排序等问题的目标函数和评价指标函数。例如,在文本排序中常用的基于单文档的目标、基于文档对的目标、以及基于文档序列的目标。用户可以根据任务的需要选择合适的目标函数。
在模型评估时,MatchZoo 也提供了多个广为使用的评价指标函数,如 MAP、NDCG、Precision、Recall 等。同时,在文本排序任务中,MatchZoo 还能生成兼容 TREC 的数据格式,以方便进行模型评估。
这一开源工具能够让大家更加直观地了解深度文本匹配模型的设计,更加便利地比较不同模型的性能差异,更加快捷地开发新型的深度匹配模型。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论