AI数据标注不是“脏活累活”
极客时间编辑部
讲述:初明明大小:4.05M时长:04:25
如果将人工智能比作“火箭”,那么,数据就是助推火箭上升的“燃料”。数据标注是人工智能发展过程中不可缺的一环,是 AI 金字塔构建的基础力量。与 AI “台前”的繁荣、高光形成鲜明对比的是,数据标注往往居于幕后,常被人忽视,也受到一些偏见,比如“血汗工厂”、“新型民工”。日前,InfoQ 记者就数据标注行业现状采访了标贝科技数据负责人缪冠琼,缪冠琼认为 AI 数据标注不是“脏活累活”,也不是人人都可以做的工作。以下为缪冠琼的观点。
AI 技术在全场景的落地以及大数据时代的到来产生了海量、指数级别的数据,数据获取也相对变得容易,然而,想要获得大量的已标注数据却并不容易,往往需要付出很大的人力、物力、财力成本。
数据标注主要是针对语音、图像、文本等进行标注,通过做标记、标重点、打标签、框对象、做注释等方式对数据集作出标注,再将这些数据集给机器训练和学习。数据标注的类型主要有:拼音标注、韵律标注、词性标注、音素时间点标注、语音转写、分类标注、打点标注、标框标注、区域标注等等。由于需要标注的数据规模庞大且成本较高,一些互联网巨头及一些 AI 公司很少自己设有标注团队,大多交给第三方数据服务公司或者数据标注团队来做。
人工智能的繁荣催生并壮大了数据标注行业,也创造了大量的就业岗位。有数据显示,目前中国的全职数据标注从业者有约 20 万人,兼职数据标注从业者有约一百万人,全国从事数据标注业务的公司约有几百家。
相对而言,数据标注是人工智能领域“入门级”的工种,单从工作流程看,其技术含量较低,人是这项工作中最大的影响“因素”,久而久之,“劳动密集型”成为外界给数据标注行业贴上的一个标签。低门槛吸引了众多农民、学生、残疾人群体加入到数据标注大军中,在我国河南、河北、贵州、山西等地的四五线城市还出现了一些特色的“数据标注村”。关于数据标注行业是“脏活累活”、“数据民工”的论调也四散而起。
对于这些“声音”,标贝科技数据负责人缪冠琼并不认同。数据服务是标贝科技的起家业务,自 2016 年成立以来,标贝科技为 BAT、AI 独角兽等多家公司提供过语音、图像、NLP 数据的采集、标注等服务。据缪冠琼介绍,考虑到外包团队服务质量难以把控等因素,标贝科技所承接的项目主要依靠自有数据标注团队,兼职人员则视项目大小临时扩容,筛选兼职人员时更考虑专业水平,要求具有语言、方言背景,或者有数据标注经验,无经验者要经过至少 6 个月培训。所以数据标注并不是“脏活累活”,这并不是一个什么人都可以做的工作。
此外,“血汗工厂”这种情形多出现在行业早期且多针对于只有数据标注一项业务的小团队,它们承接不了一些复杂的、定制化的项目。从工作量上看,结合客户需求,以语音标注为例,标贝科技的数据标注员一个人工作一天的有效标注语音时长为 1 小时。
缪冠琼认为,受数据安全和质量标准不断提升及相关数据政策出台影响,一些不满足行业标准及客户需求的公司将会被市场淘汰。而 AI 本身发展很快,随着应用产品落地,对数据的要求越来越高,对数据采标人员的素质也提出了高要求。
目前,数据标注行业已经开始进入到人机协作的阶段,数据标注市场需求量仍旧很大,需要更加专业的人及高效的机器协助,机器标注所占的比重会不断提升,AI 技术与数据互补,通过 AI 技术提升数据效率,数据反过来服务于技术。
为降低人工成本,提高效率,不少互联网技术公司及第三方数据服务商在开发自己的标注工具。未来,机器标注、人工辅助将成为可以预见的发展趋势。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(1)
- 最新
- 精选
- jetty不知数据标注员的薪资待遇如何?
收起评论