创建知识图谱的成本有多高?
极客时间编辑部
讲述:杜力大小:3.54M时长:02:34
众所周知,强大的深度模型需要很多计算力,那你知道创建一个知识图谱的成本到底是多少吗?德国 Mannheim 大学的研究者最近仔细估算了各种知识图谱每创建一条记录所需要的成本,他们表示对于大型知识图谱,手动创建一个三元组(即一条记录)的成本在 2 到 6 美元之间,总成本在数百万到数十亿美元之间。
随着知识图谱的广泛应用,我们越来越关注大型知识图谱,例如 DBpedia、YAGO 等。现在,已经有很多方法从各种角度检查这些大型知识图谱,例如大小、覆盖度和质量等。然而这些分析不足的地方在于成本,也就是创建知识图谱的价格。
Cyc 是最早的通用知识图谱之一,同时它的开发成本也能公开获得。在 2017 年的一项会议中,Cyc 的创建者表示,构建 Cyc 的成本为 1.2 亿美元。在同一个 PPT 中,Cyc 一共有 21M 断言(assertion),因此每条陈述语句或断言都需要 5.71 美元。如果 1000 人需要一年的时间完成,那么每人每 9.5 分钟就需要完成一条断言。
Freebase 是由志愿者共同完成的,因此其工作量更难判断。截止至 2011 年 4 月份,创建英文维基百科的估计时长为 41M 工时。同时维基百科包含 3.6M 的页面,平均每一个页面有 36.4 个句子,因此换算下来每一条语句需要 18.7 分钟。
由于大多数维基百科条目都是由美国构建的,我们可以使用每小时 7.25 美元的美国联邦最低工资作为人工成本估算,因此每一句的成本可以换算为 2.25 美元。借鉴这个成本,我们可以假设 Freebase 每一条陈述语句的成本也是 2.25 美元。
这比 Cyc 的平均成本低了一半,这种低成本也是合理的,因为 Cyc 是由人类专家构建的,而 Freebase 由非专业人员创建。总的而言,对于包含 30 亿事实(fact)的最新版 Freebase,它的总成本约为 67.5 亿美元($6.75B)。
有研究者反馈,有很多假设或估计在计算中都存在着问题,例如,没有考虑第三方库或基础设施的成本。其次,知识图谱的来源或数据成本当前也没有考虑在内。然而,研究者认为,知识图谱自身带来的价值将远超过各种构建成本的总和。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(2)
- 最新
- 精选
- 李伟Emily知识图谱我以为就是教学中的知识图谱,教学点树呢
- Panda厉害了 这里的知识图谱 指的是百科吧1
收起评论