21|如何实现语音输入
月影

你好,我是月影。
前面的章节我们讲的都是 AI 的多模态输出。所谓的多模态输出,指的是 AI 生成的内容不仅仅可以是文本,还可以是图像、语音等其他媒体形式。
在这一章,我们换一个角度,讲一讲多模态输入,也就是我们不仅可以输入文字,还可以输入语音。这个能力大家应该不陌生,因为豆包、Kimi 等很多 AI 应用都是可以输入语音转文字,甚至支持语音对话聊天的,而对于像波波熊学伴这样的儿童产品来说,语音输入格外重要,因为这是低龄孩子的主要输入方式。
从本质上来说,语音输入有两种形式,如果大模型本身是支持多模态输入的,那么我们直接将语音数据传给大模型就可以了,而如果大模型本身并不支持多模态输入,那么我们也可以先通过文本转语音的模型,将语音识别为文字,然后再传给大模型。二者对于用户来说,其实差别并不大。
目前,大部分大模型 API 并不直接支持多模态输入,所以我们还是更多地将语音先转文字,然后再让大模型进行处理。
语音转文字也有很多选择,比如字节火山引擎提供大模型语音识别,微软 Azure 也提供语音识别服务,我们波波熊学伴产品用的是微软 Azure 的语音识别服务。在这里我们就以这个为例子,通过实战来看看语音识别文字具体该怎么实现。
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结

1. 语音输入对于特定产品,如儿童产品,具有重要意义,因为这是低龄孩子的主要输入方式。 2. 大模型API通常需要先将语音转换为文字,然后再进行处理,因此语音转文字的服务在实际应用中具有重要作用。 3. 在微软Azure中,创建一个 Speech Service 服务,选择订阅方式、资源组、地域和付费价格等级,然后获取Keys and endpoint信息以及进入Speech Studio管理界面。 4. 实现波波熊学伴语音输入需要配置Key和Region,然后在项目中进行相应的操作。 5. 语音输入有两种形式,一种是直接将语音数据传给大模型,另一种是通过文本转语音的模型将语音识别为文字,然后再传给大模型。 6. 目前大部分大模型API并不直接支持多模态输入,因此通常会先将语音转换为文字,然后再让大模型进行处理。 7. 在实际应用中,语音转文字的服务如微软Azure的语音识别服务对于多模态输入具有重要作用。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《跟月影学前端智能体开发》,新⼈⾸单¥59
《跟月影学前端智能体开发》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论