有人说：深度学习“等于”深度卷积神经网络算法模型 + 大规模数据 + 云端分布式算力；也有人说：能够在业内叱咤风云的 AI 都曾“身经百战”，经历过无数次的训练与试错。以上都需要海量数据做依托，而对于那些数据量匮乏的领域，就衍生出了数据增强技术。即根据一个原始数据，稍作改动，变成一个对于 AI 来说的全新的数据。
为什么做数据增强？数据规模的重要性到底怎样呢？可以说，深度学习的火热和蓬勃发展，直接源于普林斯顿大学教授李飞飞及她所带领的团队创作的一个包含百万级图片的数据集 ImageNet。
工业级人脸识别模型的训练，也是动辄百万级、千万级的人脸图片数量。深度学习是基于大数据的一种方法，数据的规模越大、质量越高越好，模型才能够有着更好的泛化能力。但海量数据的标注是一件非常庞大、非常耗时耗力耗金的工作，能标注的数据往往十分有限，而且，实际采集数据时，往往很难覆盖掉全部的场景。这时数据增强就是扩充数据样本规模的一种有效的方法。
如何进行数据增强？数据增强可以分为常规的数据增强和特殊的数据增强。常规的数据增强方法又可分为：空间几何变换类（水平垂直翻转、随机裁剪、旋转、仿射变换、透视变换）、色彩类（随机亮度、饱和度、色调）、噪声类（椒盐噪声、高斯噪声、频域噪声）、随机擦除、锐化、模糊等。然而，特殊的数据增强有着各种各样的形式，为应对不同的视觉任务以及应用场景，所采用的增强方式也会随之不同。对于某个深度学习任务，并非所有的数据增强方法都有作用。
接下来将详细介绍 StartDT AI Lab 是如何采用数据增强技术实现场景落地与业务增值的。
商品检测、分类任务中的数据增强技术“无人货柜”、“无人店”等应用场景下，智能算法引擎的任务就是检测并识别商品。为了提高视觉模型的精度与泛化能力，除了采用一些常规的数据增强外，StartDT AI Lab 还使用了多样本融合的数据增强。另外，还有一些增强正样本或负样本以控制正负样本均衡的数据增强方法。
人脸识别中的数据增强技术人脸数据的不同个体之间相似程度较高，并且涉及个人隐私问题，这些问题给人脸数据的收集、清洗以及标注工作带来了巨大的困难与挑战。此外，人脸识别在实际应用中的场景是开放性的，摄像头的安装位置、光照、遮挡等因素造成了人脸数据分布的不确定性与复杂性。公开数据集虽然在数量级上较为可观，但仍然存在一定问题。不同 faceid 下的图片个数、人脸的姿态、光照条件、图像质量等存在巨大差异，导致了样本不均衡。如果直接采用这些数据进行算法模型训练，很难满足实际应用的需求。
为此，StartDT AI Lab 采用的数据增强技术很大程度上解决了以上问题：
人脸姿态变换：采用传统图像处理算法与 GAN 生成对抗网络结合的方式，实现通过单幅人脸图像模拟任意姿态的人脸图像。
人脸属性修改：利用 GAN 生成对抗网络，实现人脸属性的修改，包括表情、配饰、发型等。
通过结合传统方法和深度学习方法，对人脸图像进行去（加）噪、去（模拟）模糊、超分辨（降质）等处理，从而获取不同质量的人脸数据。
行人重识别（REID）中的数据增强技术行人重识别及 REID 技术作为人脸识别技术的一个重要补充，一般用于行人跨域追踪。然而，现场摄像头画面之间、现场摄像头画面行人数据分布与公开数据集之间都存在巨大 domain 差异，因此采用公开数据集训练的 REID 模型在该场景下的准确率较低，无法满足实际需求。
针对此问题，StartDT AI Lab 采用 GAN 生成对抗网络将公开数据集中的行人转化成实际场景下的图像风格，重新进行训练后，模型准确率提升了 50% 以上。此外还通过 GAN 的方式实现行人姿态的变化，以提高数据集的多样性。通过注意力机制，强化学习行人除衣着之外的特征，如头部、四肢等，以解决行人换衣导致的准确率下降的问题。
以上就是 StartDT AI Lab 的数据增强实践经验，希望能给你带来参考。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

该免费文章来自《极客视点》，如需阅读全部文章，
请先领取课程

免费领取

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论

大纲



为什么做数据增强？

如何进行数据增强？

商品检测、分类任务中的数据增强技术

人脸识别中的数据增强技术

行人重识别（REID）中的数据增强技术



显示
设置



留言





沉浸
阅读





手机端



快捷键



回顶部