图神经网络算法及平台在阿里的大规模实践
极客时间编辑部
讲述:丁婵大小:2.63M时长:05:45
图神经网络是 2019 年当之无愧的“AI 新贵”,但由于图神经网络训练固有的复杂性,支持高效、可扩展的并行计算非常困难,GNN (Graph Neural Network)平台目前也成为了各大科技公司重点关注的领域。
今年 3 月,阿里巴巴在阿里云峰会北京站上发布了大规模图神经网络平台 AliGraph,InfoQ 第一时间对 AliGraph 的论文进行了详细解读,近日,InfoQ 也采访了 AliGraph 项目的作者之一、阿里达摩院智能计算实验室的杨红霞博士,进一步探讨了 AliGraph 项目在阿里巴巴的落地应用。
绝大多数与现实商业场景相关的图数据表现出四个特点,即大规模、异构、属性化和动态。这些特性为嵌入和表征图数据带来了巨大的挑战,可以总结为以下四个问题:
如何提高大规模图上 GNN 的时间和空间效率?
如何将异构信息优雅地集成到一个统一的嵌入结果中?
如何统一保存和定义拓扑结构信息和非结构属性信息?
如何设计动态的有效增量 GNN 方法?
原先已有的 GNN 方法大多只能解决上述问题中的 1-2 项,然而,现实世界中的商业数据通常面临更多的挑战,AliGraph 正是为了缓解这种情况而生。它是一个全面而系统的 GNN 解决方案,提供了一套对应的系统和算法来解决更实际的问题,可以更好地支持各种 GNN 方法和应用。
AliGraph 的系统组件由存储层、采样层和操作层组成,其中存储层可以存储大规模的原始数据以满足高级操作和算法的快速数据访问要求;采样层优化了 GNN 方法中的关键采样操作;操作层提供了 GNN 算法中两个常用的应用操作的优化实现,可以加速计算过程。另外,AliGraph 系统提供了一个灵活的接口来设计 GNN 算法,现有的 GNN 方法都可以很容易地在 AliGraph 上实现。
据介绍,AliGraph 平台的架构设计主要遵循两条核心原则:一是算法和系统紧密结合,首先从业务上剥离出了很多有挑战性的问题,研发了一些非常重要的方向的基础模型,同时对系统提出需求,进行平台的研发;二是从阿里的实际业务出发,更全面地考虑算法模型问题。
目前 AliGraph 已经在阿里巴巴的业务系统中实际部署,同时也已经上线阿里 PAI 平台,集团内部和外部用户均能基于 AliGraph 定制自己的算法模型解决问题。
淘宝电商的商品推荐场景是目前 AliGraph 在实际业务中应用的一个典型案例。其中图神经网络主要应用于用户兴趣点的挖掘和聚合、兴趣点的表示和推荐的可解释性两大方面。AliGraph 的开发团队结合图神经网络和文本自动生成在推荐的业务云主题下做了初步尝试,不仅可以进行用户兴趣点的挖掘和推理,而且增加了模型的可解释性,在实际业务中也取得了较为显著的提升,相关指标如发现性、疲劳度、每千次展示支付等,分别增加 5%-90% 不等。
机器学习的可解释性正变得越来越重要,如果能使机器学习算法做到可解释,就可以帮助决策者决定是否信任机器学习的结果。在推荐这个场景下,所谓可解释的推荐就是在给出推荐结果的同时,给出对结果的支持论据(即解释)。
最常见的一种流程是后处理(Post-hoc),后处理的方法是在推荐结果已经给出后再进行解释,解释内容不受推荐系统的影响,即使换了一个推荐系统,只要给定同一个用户和物品,解释都是一样的。后处理方法主要研究解释文本的生成,分为三种方法:基于规则、基于检索、基于生成式模型。基于规则和基于检索的方法在生成解释文本时,都需要模板,可能会让用户觉得千篇一律、缺乏惊喜。研发团队通过卖家提供的文案和被展示商品的点击率,利用改进的序列生成技术自动写出文本,从数据中不断学习,进一步提高了解释的多样性和说服力。
对于 GNN 模型的选择,经过大量的线上线下实验,研发团队最终选择了 GraphSage,并给予复杂场景的需求做了通用的延伸。最终 GNN 模型应用于手淘全量月活用户和精品池,数据规模超数十亿节点、超百亿边,是阿里集团目前最大规模的 heterogeneous attributed graph embedding 模型。
据了解,AliGraph 现在依然在紧张的开发过程中,杨红霞透露,AliGraph 计划在今年的 12 月份对外开源。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论