AI 前线
InfoQ
AI 前线团队
2898 人已学习
免费领取
课程目录
已更新 37 讲/共 1000 讲
AI 前线
15
15
1.0x
00:00/00:00
登录|注册

没有数据训练大模型?OpenAI 总裁带队转录YouTube视频,谷歌、Meta 也想尽数据收割套路

2021 年底,OpenAI 开始面临数据供应荒。
这家人工智能研究机构在开发最新 AI 系统时,已然耗尽了互联网上所有质量稳定的英语文本库。现在他们需要更多数据来训练自家技术的下一个版本——更多更多。
为此,OpenAI 研究人员开发出一款名为 Whisper 的语音识别工具,能够转录 YouTube 视频中的音频以生成新的对话文本,再将其作为训练素材以提升 AI 系统的智能水平。
三名知情人士表示,部分 OpenAI 员工讨论了此举可能违反 YouTube 规则。谷歌旗下的 YouTube 明确禁止将其视频用于“独立”于该平台以外的应用场景。
知情人士指出,最终 OpenAI 团队还是转录了超过 100 万小时的 YouTube 视频。两位知情人士表示,这支团队包括 OpenAI 总裁 Greg Brockman,他还亲自协助收集了这些视频。整理出的文本随后被输入名为 GPT-4 的系统,这也是目前得到广泛认可的最强 AI 模型之一,也是最新版本 ChatGPT 聊天机器人的底层引擎。
这场貌似追求技术的 AI 军备竞赛,早已转变成疯狂搜集数字数据的对抗与掠夺。根据《纽约时报》的调查,为了获取这些数据,包括 OpenAI、谷歌和 Meta 在内的科技大厂可谓“各显神通”——他们无视公司原则、修改规定条款,甚至公开讨论如何规避版权保护。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

1. 科技企业面临数据供应荒,转录YouTube视频以获取训练素材可能违反规则和侵犯版权。 2. 创作者的作品成为AI训练素材,引发版权与许可诉讼。 3. 谷歌修改隐私政策,使用客户信息改进服务,但强调不会未经用户许可使用信息来训练语言模型。 4. Meta公司面临数据短缺问题,考虑使用受版权保护的素材,引发道德和法律担忧。 5. OpenAI探索使用由AI生成的文本进行训练,即合成数据,以解决数据短缺难题。

该试读文章来自《AI 前线》,如需阅读全部文章,
请先领取课程
免费领取
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部