没有数据训练大模型?OpenAI 总裁带队转录YouTube视频,谷歌、Meta 也想尽数据收割套路
核子可乐
2021 年底,OpenAI 开始面临数据供应荒。
这家人工智能研究机构在开发最新 AI 系统时,已然耗尽了互联网上所有质量稳定的英语文本库。现在他们需要更多数据来训练自家技术的下一个版本——更多更多。
为此,OpenAI 研究人员开发出一款名为 Whisper 的语音识别工具,能够转录 YouTube 视频中的音频以生成新的对话文本,再将其作为训练素材以提升 AI 系统的智能水平。
三名知情人士表示,部分 OpenAI 员工讨论了此举可能违反 YouTube 规则。谷歌旗下的 YouTube 明确禁止将其视频用于“独立”于该平台以外的应用场景。
知情人士指出,最终 OpenAI 团队还是转录了超过 100 万小时的 YouTube 视频。两位知情人士表示,这支团队包括 OpenAI 总裁 Greg Brockman,他还亲自协助收集了这些视频。整理出的文本随后被输入名为 GPT-4 的系统,这也是目前得到广泛认可的最强 AI 模型之一,也是最新版本 ChatGPT 聊天机器人的底层引擎。
这场貌似追求技术的 AI 军备竞赛,早已转变成疯狂搜集数字数据的对抗与掠夺。根据《纽约时报》的调查,为了获取这些数据,包括 OpenAI、谷歌和 Meta 在内的科技大厂可谓“各显神通”——他们无视公司原则、修改规定条款,甚至公开讨论如何规避版权保护。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
1. 科技企业面临数据供应荒,转录YouTube视频以获取训练素材可能违反规则和侵犯版权。 2. 创作者的作品成为AI训练素材,引发版权与许可诉讼。 3. 谷歌修改隐私政策,使用客户信息改进服务,但强调不会未经用户许可使用信息来训练语言模型。 4. Meta公司面临数据短缺问题,考虑使用受版权保护的素材,引发道德和法律担忧。 5. OpenAI探索使用由AI生成的文本进行训练,即合成数据,以解决数据短缺难题。
该试读文章来自《AI 前线》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论