如何实现大规模自动化的知识图谱构建?
极客时间编辑部
讲述:初明明大小:4.81M时长:05:15
你好,欢迎收听极客视点。
自 2012 年谷歌提出 “知识图谱” 的概念并运用到搜索引擎后,知识图谱的构建技术与应用引起了学术界和工业界的广泛关注。近几年,AI 技术的发展和大数据时代的到来令知识图谱的自动化构建成为可能,尽管现阶段还面临着一些挑战,但已有不少企业在积极探索和尝试自动化构建技术。近日,“AI 前线”采访了来自明略科技和国双数据科学团队多位专家,他们分享了实现大规模自动化知识图谱建设的技术与应用实践。
人工构建还是机器构建?
从构建技术看,知识图谱经历了由人工构建到群体智慧构建到自动获取、构建的过程。人工构建和自动化构建各有优缺点,而现阶段要兼顾效率和精度,最合理的方式是半自动化结合人工。 目前业内构建知识图谱很少见纯人工和全自动方法,采用的主流方式是半自动结合人工方式,约占 80% 以上。
知识图谱自动化构建流程与技术
实现全面自动化构建知识图谱还有很长的一段路要走,不过已有不少企业在积极探索降低人工参与度,提升自动化构建水平,例如国双通过自研的知识抽取算法设计平台完成知识抽取流程设计。其自动化构建流程主要包括本体创建 –> 数据标注 –> 模型训练 –> 知识抽取 –> 知识融合 –> 知识推理 –> 知识更新等环节。
具体而言,数据标注和模型训练环节,通过知识抽取算法设计平台完成。
在知识抽取环节,以相对复杂的非结构化知识抽取为例,国双运用的技术是将标注数据清洗扩增,使用基于 Encoder 和 Decoder 的端到端三元组联合抽取模型进行知识抽取。针对没有标注数据的冷启动知识抽取需求,构建了一套利用依存句法分析算法实现无监督情况下抽取三元组的系统。
在知识融合环节,国双构建了一套结合传统字符串相似度和图卷积网络的融合系统,将知识图谱经过 GCN 编码后得到表示向量,通过计算表示向量相似度和实体的字符串相似度,并结合 Sieve 模式高效筛选出融合结果。
在知识推理环节,在基于规则和基于算法的知识推理方面做了一些尝试,例如通过业务本体框架中的相关约束来做相关推理。
在知识更新环节,使用知识抽取实验平台把新的增量数据去重新训练模型,且依靠知识抽取算法 API 来实现自动的知识更新。
明略科技科学院知识工程实验室负责人张杰表示,知识图谱自动构建的过程中主要运用到了自然语言处理、小样本训练、领域迁移等关键的 AI 技术。自动化构建知识图谱有四大技术重点:如何自动化的从结构化数据库映射为知识图谱并做知识融合;如何通过小样本学习和领域知识迁移的技术减少人工标注成本;如何从非结构化文本中做篇章级的事件抽取和多事件关联;基于深度学习的知识表示在各个构建的环节的应用。
针对结构化和半结构化数据,明略科技提出了 HAO profiling 技术,对来自不同数据源的结构化 / 半结构化数据进行汇聚、组织,试图理解数据,解决数据冗余、冲突等问题,对数据进行标准化、连接,形成数据的知识图谱,进行可视化展示,并以统一视图服务查询、计算等应用需要。
针对非结构化数据,明略科技设计、开发了一套算法工具包:HAO 图谱。HAO 图谱包括关系抽取、事件抽取、实体对齐、网络结构嵌入式表示、时空序列数据表示、图谱摘要、基于图谱的短文本生成等算法。
构建挑战
目前,知识图谱在构建过程中面临着诸多挑战,主要的技术挑战点有三项:
信息丢失:指应该抽取出来的信息没有抽全;
信息冗余:指在输入文本中不存在但在背景知识中存在的额外概念和关系;
信息重叠:指能否将原文中距离跨度较大的属性归结到正确的实体上,并对动态变化的属性进行适当存储。
此外,知识图谱构建成本高昂,小样本的抽取和构建问题,也是业界公认的难题。
明略科技认为,降成本需要做到行业经验复用和技术工具复用。
国双认为,构建知识图谱的成本需要考虑三大因素:人、模型、数据。首先由人来创建正确有效的本体,标注少量数据,利用数据增强等方式来训练机器学习模型,再利用模型处理有标注和无标注数据。最后人工查验,在保证标注精度的情况下最大程度减少人工干预,最终实现控制成本,做大规模,同时保证知识图谱的质量。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(1)
- 最新
- 精选
- 小斧构建知识图谱的成本需要考虑三大因素:人、模型、数据。首先由人来创建正确有效的本体,标注少量数据,利用数据增强等方式来训练机器学习模型,再利用模型处理有标注和无标注数据。最后人工查验,在保证标注精度的情况下最大程度减少人工干预,最终实现控制成本,做大规模,同时保证知识图谱的质量。
收起评论