21｜如何实现语音输入

月影

你好，我是月影。
前面的章节我们讲的都是 AI 的多模态输出。所谓的多模态输出，指的是 AI 生成的内容不仅仅可以是文本，还可以是图像、语音等其他媒体形式。
在这一章，我们换一个角度，讲一讲多模态输入，也就是我们不仅可以输入文字，还可以输入语音。这个能力大家应该不陌生，因为豆包、Kimi 等很多 AI 应用都是可以输入语音转文字，甚至支持语音对话聊天的，而对于像波波熊学伴这样的儿童产品来说，语音输入格外重要，因为这是低龄孩子的主要输入方式。
从本质上来说，语音输入有两种形式，如果大模型本身是支持多模态输入的，那么我们直接将语音数据传给大模型就可以了，而如果大模型本身并不支持多模态输入，那么我们也可以先通过文本转语音的模型，将语音识别为文字，然后再传给大模型。二者对于用户来说，其实差别并不大。
目前，大部分大模型 API 并不直接支持多模态输入，所以我们还是更多地将语音先转文字，然后再让大模型进行处理。
语音转文字也有很多选择，比如字节火山引擎提供大模型语音识别，微软 Azure 也提供语音识别服务，我们波波熊学伴产品用的是微软 Azure 的语音识别服务。在这里我们就以这个为例子，通过实战来看看语音识别文字具体该怎么实现。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. 语音输入对于特定产品，如儿童产品，具有重要意义，因为这是低龄孩子的主要输入方式。 2. 大模型API通常需要先将语音转换为文字，然后再进行处理，因此语音转文字的服务在实际应用中具有重要作用。 3. 在微软Azure中，创建一个 Speech Service 服务，选择订阅方式、资源组、地域和付费价格等级，然后获取Keys and endpoint信息以及进入Speech Studio管理界面。 4. 实现波波熊学伴语音输入需要配置Key和Region，然后在项目中进行相应的操作。 5. 语音输入有两种形式，一种是直接将语音数据传给大模型，另一种是通过文本转语音的模型将语音识别为文字，然后再传给大模型。 6. 目前大部分大模型API并不直接支持多模态输入，因此通常会先将语音转换为文字，然后再让大模型进行处理。 7. 在实际应用中，语音转文字的服务如微软Azure的语音识别服务对于多模态输入具有重要作用。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《跟月影学前端智能体开发》，新⼈⾸单¥59

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论