联邦学习或将带来数据价值挖掘的下一个爆发点
极客时间编辑部
讲述:初明明大小:4.62M时长:05:03
你好,欢迎收听极客视点。
2016 年,谷歌正式提出联邦学习的概念。同期,国内不少科技公司开始了对联邦学习的探索,并已经成功应用在了业务中。任何技术都不是银弹,联邦学习也是如此。那么,当一家企业具备哪些特征或者出现哪些问题时可以尝试联邦学习?开发者如何参与进来?对于这些问题,InfoQ 记者赵钰莹对数牍科技联合创始人 & CTO 蔡超超进行了独家采访,以下为重点内容。
数据孤岛是 AI 发展的一大壁垒
从表面上看,近几年的人工智能发展快速,无论是政府政策还是市场需求,人工智能都受到了很高的关注度。但事实是,尽管人工智能从 2012 年深度学习理论被实践验证后得到了飞速的发展,但我们现在仍然处于人工智能的初级阶段。原因就是当前的人工智能,都是被数据所驱动的智能。本质上是被大体量数据不断训练出来,再通过算法模拟出来的“智能”,并非是机器真的有自己的判断逻辑。
现阶段,我们依赖数据。因而,数据孤岛的存在成为人工智能发展的一大壁垒,这极大限制了企业可利用的数据量。采访中,蔡超超表示,除了数据孤岛,企业对数据的实际应用中也有保护核心高价值数据的需求,通过隐私计算和联邦学习实现数据的所有权和使用权分离是一种有效的解决方式。
具体来说,隐私计算和联邦学习可以增加可用数据的总量,与人工智能一起形成螺旋式上升。人工智能产业的发展主要基于机器学习技术,难以脱离数据单独前进,联邦学习在解决内部数据不足问题上有很好的表现,可以助力人工智能企业的发展。同样的,人工智能市场的繁荣发展让更多终端场景产品的不断落地也会收集更多数据会分布在不同地点,促进联邦学习更大规模的应用,如此看来,联邦学习和人工智能一起形成螺旋式上升模式。
蔡超超认为,规范数据使用可以在汇聚更多数据的基础上迎来价值挖掘的下一个爆发点,带动 AI 的数据基础设施进步,隐私计算未来会逐步成为 AI 的基础设施。
具体来说,隐私计算或者说联邦学习用到的技术包括:差分隐私、MPC、机器学习、TEE 等,这是数据科学、密码学、分布式计算与存储的综合工程,而不是单一的密码学。这个过程最大的挑战是工程实践和实际落地能力,需要数据科学和工程的经验积累才能设计出真正工程可用的产品。
既然是解决数据孤岛问题,那做个中台把数据打通可不可以?还需要联邦学习吗?
中台做不了联邦学习的事儿
蔡超超表示,“数据中台的存在可以为联邦学习提供良好的数据环境,但并非必要条件。”
联邦学习用于解决安卓手机终端用户在本地更新模型的问题,是一种分布式的机器学习技术 / 框架。联邦学习可以在不分享数据的基础上,实现共同建模,并提升模型效果,不会泄露任何原始数据,起到保护数据隐私 / 核心价值的作用。
数据中台则更像是企业内部对现有数据流处理的一种综合应用,帮助企业内部实现业务数据的分层和水平解耦,沉淀出公共的数据资源。
数据中台的存在可以为联邦学习提供良好的数据环境,但并非必要条件。
联邦学习是一个综合工程
蔡超超表示,当企业遇到如下两种情况可能需要通过联邦学习解决问题:一是涉及到保护数据隐私和核心价值的场景,因为联邦学习的整个学习训练过程,没有传输任何原始数据;二是多方数据补充的场景,这可能存在单方样品数量不够充分或单方数据维度不够丰富的情况。
简单来说,如果企业确实有对隐私数据核心价值保护以及数据对外协作的需求,可以考虑尝试联邦学习技术。但要清楚,联邦学习不是简单的机器学习技术,而是一个结合了数据科学、密码学、分布式计算与存储的综合工程,企业需要一个有综合实力的研发团队的支持,而且对个人的技术要求也比较高,需要充足的前期训练以及良好的团队配合,可能需要度过一个漫长的准备期。而且,联邦学习项目本身与数据和计算相关,对数据和场景的理解也很重要,需要数据科学和工程的经验积累才能设计出真正工程可用的产品,要为实用而加密,而非为了加密而加密。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论