NLP在落地、商业化方面进展慢是假象
InfoQ刘燕
讲述:丁婵大小:6.55M时长:04:46
这两年,BERT 和 Transformer 的出现和运用推动 NLP 迎来了历史上的黄金时代。NLP 在工业界的落地与应用也呈现百花齐放之态,在搜索、推荐、信息流、互联网金融、社交网络等领域都有其足迹。
近日, InfoQ 采访了小米人工智能实验室主任、NLP 首席科学家王斌博士,他详细介绍了 NLP 在小米的智能手机、IoT、搜索、推荐、广告等多个不同场景中的应用实践。此外,王斌还对 NLP 的发展现状和趋势发表了自己的看法,以下是此次访谈的重点内容。
王斌介绍称,目前小米在 NLP 领域的布局主要包括基础 NLP 能力建设和 NLP 业务应用两部分。前者打造云端、本地、设备端三端一体的 MiNLP 平台,后者是重点支持多个核心业务应用,包括智能问答、人机对话、机器翻译、内容过滤、搜索推荐等等。
小米的很多应用场景中都包含内容处理,应用了很多 NLP 技术。比如小爱同学中的查询意图理解中使用了文本分类、分词、命名实体识别、句法分析等技术,通过文本分类技术将查询意图分到意图体系,通过分词和命名实体识别技术从文本中提取关键字段,通过句法分析技术对查询进行结构化分析等等。在智能问答和对话中,使用实体链接、相似度计算、文本生成等技术进行问题理解、搜索和对话生成。在搜索和推荐场景,同样使用了大量的 NLP 技术。
王斌表示,这些年 NLP 技术的发展很快,有些任务已经取得了大幅度进步。比如机器翻译、机器阅读、人机对话、机器写作等领域都取得了长足的发展。
随着 Transformer 和 BERT 的提出,NLP 技术这几年得到了较大发展。这些技术除了在学术界得到广泛推崇之外,在工业界也得到了实际验证。小米公司也在广泛地使用这些技术,来进一步提高 NLP 的实际应用效果。王斌觉得 NLP 技术的进步非常大,当然由于 NLP 本身的一些特点,其实际水平一直不低,在实际中也早已落地,因此看上去并没有获得和其他某些领域一样的大幅度增长。
目前, NLP 的发展还存在很多挑战,王斌认为最重要的有两点。第一是标注数据问题。当前主流方法的效果取决于标注数据的规模和质量。获得大规模的高质量标注数据永远是个难题。要解决这个问题,一种可能的方法是通过自动标注或者半自动标注或者自然标注来扩大标注的数据量。另一种可能的方法是通过弱监督或半监督方法来充分利用大规模的未标注数据。
第二个挑战是轻量级优质模型问题。当前的主流模型需要消耗大量资源进行训练,这种趋势目前看来有增无减。如何得到轻量级的优质模型是一个挑战性问题,可能的方法包括对现有模型的裁剪甚至另辟新路提出新的模型。
相较于计算机视觉,NLP 在落地、商业化方面进展较慢。王斌认为,这是因为深度学习的发展对计算机视觉的影响远比对 NLP 大。原来很多计算机视觉任务仅仅停留在学术研究层面,难以落地应用。深度学习使得很多计算机视觉任务突然具备了落地的可能,所以这些年来计算机视觉领域在商业化和落地方面取得了一些明显的进展。
相对而言,NLP 技术一直在工业界平稳落地,不论是搜索、推荐、信息流、互联网金融还是社交网络,NLP 技术都在其中起着十分重要的作用,正是因为应用已经非常广,加上 NLP 技术本身处于底层支撑地位,给人的感官不明显,所以给人造成落地、商业化进展很慢的假象。
此外,王斌表示,其个人也同样认为,NLP 已经迎来了历史上的黄金时代。
以上就是今天的内容,希望对你有所帮助。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论