没有数据训练大模型？OpenAI 总裁带队转录YouTube视频，谷歌、Meta 也想尽数据收割套路

核子可乐

2021 年底，OpenAI 开始面临数据供应荒。
这家人工智能研究机构在开发最新 AI 系统时，已然耗尽了互联网上所有质量稳定的英语文本库。现在他们需要更多数据来训练自家技术的下一个版本——更多更多。
为此，OpenAI 研究人员开发出一款名为 Whisper 的语音识别工具，能够转录 YouTube 视频中的音频以生成新的对话文本，再将其作为训练素材以提升 AI 系统的智能水平。
三名知情人士表示，部分 OpenAI 员工讨论了此举可能违反 YouTube 规则。谷歌旗下的 YouTube 明确禁止将其视频用于“独立”于该平台以外的应用场景。
知情人士指出，最终 OpenAI 团队还是转录了超过 100 万小时的 YouTube 视频。两位知情人士表示，这支团队包括 OpenAI 总裁 Greg Brockman，他还亲自协助收集了这些视频。整理出的文本随后被输入名为 GPT-4 的系统，这也是目前得到广泛认可的最强 AI 模型之一，也是最新版本 ChatGPT 聊天机器人的底层引擎。
这场貌似追求技术的 AI 军备竞赛，早已转变成疯狂搜集数字数据的对抗与掠夺。根据《纽约时报》的调查，为了获取这些数据，包括 OpenAI、谷歌和 Meta 在内的科技大厂可谓“各显神通”——他们无视公司原则、修改规定条款，甚至公开讨论如何规避版权保护。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

1. 科技企业面临数据供应荒，转录YouTube视频以获取训练素材可能违反规则和侵犯版权。 2. 创作者的作品成为AI训练素材，引发版权与许可诉讼。 3. 谷歌修改隐私政策，使用客户信息改进服务，但强调不会未经用户许可使用信息来训练语言模型。 4. Meta公司面临数据短缺问题，考虑使用受版权保护的素材，引发道德和法律担忧。 5. OpenAI探索使用由AI生成的文本进行训练，即合成数据，以解决数据短缺难题。

该试读文章来自《AI 前线》，如需阅读全部文章，
请先领取课程

免费领取

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论