成立半年就敢踢馆 OpenAI ，首个开源模型不输 GPT-4o，LeCun 、PyTorch 之父齐声叫好！

华卫

整理 | 华卫
想象一下，一个 AI 模型可以表达 70 多种情绪，以不同的风格说话，甚至令人信服地模仿口音。并且，它能够同时处理两个音频流，同时听和说。这不是科幻小说，而是 Kyutai 在语音 AI 技术上的最新突破。
只用短短 6 个月的时间，这个由 8 人组成的非营利性 AI 研究实验室从零开发出了一种名为 "Moshi "的实时原生多模态基础 AI 模型。根据 Kyutai 的说法，Moshi 是世界上首个具有自然对话能力的可公开访问 AI 助手。OpenAI 之前曾展示过 GPT-4o 的语音引擎和语音模式功能，但尚未发布。
据称，该模型具备的功能可与 OpenAI 的 GPT-4o 和 Google Astra 相媲美，但模型要小得多。“Moshi 在说话时思考。”Kyutai 首席执行官帕特里克·佩雷斯 （Patrick Pérez） 表示，Moshi 具有彻底改变人机通信的潜力。
7 月 4 日，Kyutai 在法国巴黎公开发布了 Moshi 的实验原型，用户可以在网上自由测试体验（https://moshi.chat/?queue_id=talktomoshi）。值得一提的是，Kyutai 的所有模型都是开源的。之后，该团队不仅计划发布完整模型，包括推理代码库、7B 模型、音频编解码器和优化堆栈。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. Kyutai实验室开发了名为"Moshi"的实时原生多模态基础AI模型，具有自然对话能力，可公开访问。 2. Moshi模型具备与OpenAI的GPT-4o和Google Astra相媲美的功能，但模型要小得多，具有彻底改变人机通信的潜力。 3. Moshi模型在法国巴黎公开发布实验原型，得到了Yann LeCun和PyTorch之父Soumith Chintala等人的肯定和祝贺。 4. Kyutai团队成立于2023年11月，得到了近3亿欧元的支持，旨在为AI的开放研究做出贡献并促进生态系统发展。 5. Moshi模型具备处理文本和音频的多模态能力，支持多流音频，能够产生文本思想，识别情绪，实现实时交互，且是一个开源项目。 6. Moshi模型能够在设备上运行，解决了隐私问题，使AI在实时应用程序中更易于访问和响应。 7. Moshi模型基于Helium 7B模型构建，集成了文本和音频训练，支持CUDA、Metal和CPU后端优化，训练中使用了各种数据源，包括人体运动数据和YouTube视频。 8. Moshi模型的训练涉及创新的开创性技术，包括音频语言模型、合成对话、集成深度神经网络和基于语音的训练。 9. Moshi代表了语音AI技术的重大飞跃，具有改变数字世界中语音使用的潜力，可能影响客服支持、语言学习、医疗保健和娱乐等领域。

该试读文章来自《AI 前线》，如需阅读全部文章，
请先领取课程

免费领取

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论