金山李长亮:做NLP最重要的是保护用户隐私
极客时间编辑部
讲述:杜力大小:2.08M时长:02:17
近日,金山 AI Lab 实验室主任李长亮博士,就 AI Lab 的研究工作和发展进行了探讨,在谈到金山做 NLP 的难点时,李长亮博士表示,在金山做 NLP 最重要的是保护用户隐私。
李博士认为,目前业界的难点是共通的,如句子的理解和生成,以及最基础的分词、词性标注等。但具体到公司,由于各家研究侧重点不尽相同,所以面对的难点也都是有区别的。
对金山来说,目前还存在许多技术难题需要解决。例如,最基本分词词性标注 NLP,目前对底层的技术还没有完全攻克,准确率大概才百分之九十几,还不能够达到让用户满意的准确率。除了这些技术攻关外,在应用落地的时候,也会涉及到线上部署、用户请求服务器等技术问题。
AI Lab 一直在进行技术上的优化,在机器翻译、阅读理解、知识图谱、内容推荐和智能文档等技术上的后续优化也是目前一直在改进的方向。除了在效率和准确率上进行提升外,还需要做一些领域上的突破。比如,虽然 AI Lab 在机器翻译上已经取得了不错的成果,但优化也是无止境的。对于机器翻译,在李博士看来,要做到“信达”并不难,但是要达到“雅”的境界就特别困难。用机器翻译技术处理公文和一般的文档并不难,但如果要翻译好一些文学作品,就要达到“雅”的境界,这是非常困难的。
除了这些难点,李博士认为在金山做研究重要的一点是严格遵守并保护用户隐私。他们可以承诺的是,云文档放在金山是绝对安全的。虽然他们知道用户数据具有重大的研究价值,但是他们的原则是,绝不碰用户数据,这也是金山的底线和信仰。
目前对数据的处理方法是,所有的数据都被分解到不同的地方,存到不同的服务器上。技术人员接触到的数据都是经过拆分的,并保存在不同的地方。除此之外,他们还制定了一系列的规章制度,以确保数据的安全。用户上传的数据,任何人都不能碰。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论