PayPal 风险管理部门通过应用基于 data 和 AI 的解决方案检测 PayPal 平台的欺诈交易。从三年前开始 Aerospike 做为主要的 NoSQL 技术被用以快速存取风险管理场景所需要的各种 KV 数据,到目前为止已经有 20+ Aerospike 集群、PB 以上的数据,而且可用性达到了 4 个 9 以上。基于 Aerospike 的良好的性能和稳定性,我们构建了实时的图的连接以及模糊连接查询和计算,用以支持风险管理系统对图连接数据类型的需要。
目前整个实时图计算平台基于 Gremlin 接口抽象,后端存储主要是 Aerospike 但不限于单一的存储解决方案,这有利于在其它不同业务要求下的系统扩展。在其上我们构建了 500 亿以上的点和边的风险管理连接图且可以支持动态(模糊)连接数据的扩展。通过使用异步化、批量化、缓存等优化方法满足实时风险管理在高维多跳的图连接查询和运算的低延迟高吞吐的需求。
张彭善,2008 年硕士毕业于上海交通大学,2012 年初加入 PayPal Risk Data Science 团队。2013 年初开始研发基于 Hadoop/YARN 的机器学习框架,以满足 PayPal 日益增长的风控大数据的需要。主要负责使用 Hadoop/YARN 实现分布式的神经网络、逻辑回归以及梯度提升树等算法。目前在 PayPal Risk 负责分布式机器学习的框架的研发以及机器学习工程化的端到端的系统平台建设。个人的兴趣主要集中在分布式的计算系统和大规模的机器学习 / 深度学习方向。