谷歌开源语义图像分割模型DeepLab-v3+
极客时间编辑部
讲述:丁婵大小:1.19M时长:02:35
近日,谷歌开源了其目前最新的、性能最好的语义图像分割模型 DeepLab-v3+(在 TensorFlow 中实现)。该模型建造在一个强大的卷积神经网络(CNN)主干架构之上,主要用于服务器端部署。
此外,谷歌还公开了 Tensorflow 模型训练和评估代码,还有已经在 Pascal VOC 2012 和 Cityscapes 语义分割任务上预训练过的模型。
据了解,DeepLab 是一种用于图像语义分割的顶尖深度学习模型,其目标是将语义标签,如人、狗、猫等,分配给输入图像的每个像素。经过三年左右的发展,目前 DeepLab 具有如下功能:
DeepLab-v1:结合深度卷积神经网络,使用空洞卷积(atrous convolution)进行语义分割。
DeepLab-v2:是基于 DeepLab-v1 的优化,使用空洞空间金字塔池化(atrous spatial pyramid pooling,ASPP)对物体进行有效的分割。
DeepLab-v3:采用多比例的带孔卷积级联或并行来捕获多尺度背景,基于图像特征优化 ASPP。
DeepLab-v3+ :是对 DeepLab-v3 的扩展,包括一个简单而高效的改善分割结果的解码器模块。
目前来说,在图像语义分割上,DeepLab-v3+ 已经达到了业内顶尖水准。
自从 3 年前研究出 DeepLab 模型后,谷歌不断改进 CNN 的特征提取器,以实现更好的对象尺度建模、对上下文信息进行更好的吸收、改进训练程序、应用越来越强大的硬件和软件,这些使 DeepLab-v2 和 DeepLab-v3 得到了不断的改进。
据介绍,在使用 DeepLab-v3+ 时,谷歌可以通过添加一个简单有效的解码器模块来扩展 Deeplab-v3,从而改善分割结果,特别是用于对象边界检测。
另外,谷歌还进一步将深度可分离的卷积应用于空洞空间金字塔池化(atrous spatial pyramid pooling)和解码器模块,从而形成了一个用于语义分割的更快速、更强大的解码器网络。
目前,基于卷积神经网络(CNNs)的现代语义图像分割系统已经达到了精确的水平,这在五年前是难以想象的,而这要归功于方法、硬件和数据集的发展。
谷歌表示,希望向广大的研究社群分享他们的系统,这样一来,学术界和工业界的团体就能够更容易地复制和改进现有的系统,在新的数据集上训练模型,并为这项技术创造新的应用。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论