AI 前线
InfoQ
AI 前线团队
6952 人已学习
免费领取
课程目录
已更新 96 讲/共 1000 讲
AI 前线
15
15
1.0x
00:00/00:00
登录|注册

成立半年就敢踢馆 OpenAI ,首个开源模型不输 GPT-4o,LeCun 、PyTorch 之父齐声叫好!

整理 | 华卫
想象一下,一个 AI 模型可以表达 70 多种情绪,以不同的风格说话,甚至令人信服地模仿口音。并且,它能够同时处理两个音频流,同时听和说。这不是科幻小说,而是 Kyutai 在语音 AI 技术上的最新突破。
只用短短 6 个月的时间,这个由 8 人组成的非营利性 AI 研究实验室从零开发出了一种名为 "Moshi "的实时原生多模态基础 AI 模型。根据 Kyutai 的说法,Moshi 是世界上首个具有自然对话能力的可公开访问 AI 助手。OpenAI 之前曾展示过 GPT-4o 的语音引擎和语音模式功能,但尚未发布。
据称,该模型具备的功能可与 OpenAI 的 GPT-4o 和 Google Astra 相媲美,但模型要小得多。“Moshi 在说话时思考。”Kyutai 首席执行官帕特里克·佩雷斯 (Patrick Pérez) 表示,Moshi 具有彻底改变人机通信的潜力。
7 月 4 日,Kyutai 在法国巴黎公开发布了 Moshi 的实验原型,用户可以在网上自由测试体验(https://moshi.chat/?queue_id=talktomoshi)。值得一提的是,Kyutai 的所有模型都是开源的。之后,该团队不仅计划发布完整模型,包括推理代码库、7B 模型、音频编解码器和优化堆栈。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. Kyutai实验室开发了名为"Moshi"的实时原生多模态基础AI模型,具有自然对话能力,可公开访问。 2. Moshi模型具备与OpenAI的GPT-4o和Google Astra相媲美的功能,但模型要小得多,具有彻底改变人机通信的潜力。 3. Moshi模型在法国巴黎公开发布实验原型,得到了Yann LeCun和PyTorch之父Soumith Chintala等人的肯定和祝贺。 4. Kyutai团队成立于2023年11月,得到了近3亿欧元的支持,旨在为AI的开放研究做出贡献并促进生态系统发展。 5. Moshi模型具备处理文本和音频的多模态能力,支持多流音频,能够产生文本思想,识别情绪,实现实时交互,且是一个开源项目。 6. Moshi模型能够在设备上运行,解决了隐私问题,使AI在实时应用程序中更易于访问和响应。 7. Moshi模型基于Helium 7B模型构建,集成了文本和音频训练,支持CUDA、Metal和CPU后端优化,训练中使用了各种数据源,包括人体运动数据和YouTube视频。 8. Moshi模型的训练涉及创新的开创性技术,包括音频语言模型、合成对话、集成深度神经网络和基于语音的训练。 9. Moshi代表了语音AI技术的重大飞跃,具有改变数字世界中语音使用的潜力,可能影响客服支持、语言学习、医疗保健和娱乐等领域。

该试读文章来自《AI 前线》,如需阅读全部文章,
请先领取课程
免费领取
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部