跟月影学前端智能体开发
月影
波波熊科技联合创始人
2262 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已更新 26 讲/共 40 讲
跟月影学前端智能体开发
15
15
1.0x
00:00/00:00
登录|注册

21|如何实现语音输入

你好,我是月影。
前面的章节我们讲的都是 AI 的多模态输出。所谓的多模态输出,指的是 AI 生成的内容不仅仅可以是文本,还可以是图像、语音等其他媒体形式。
在这一章,我们换一个角度,讲一讲多模态输入,也就是我们不仅可以输入文字,还可以输入语音。这个能力大家应该不陌生,因为豆包、Kimi 等很多 AI 应用都是可以输入语音转文字,甚至支持语音对话聊天的,而对于像波波熊学伴这样的儿童产品来说,语音输入格外重要,因为这是低龄孩子的主要输入方式。
从本质上来说,语音输入有两种形式,如果大模型本身是支持多模态输入的,那么我们直接将语音数据传给大模型就可以了,而如果大模型本身并不支持多模态输入,那么我们也可以先通过文本转语音的模型,将语音识别为文字,然后再传给大模型。二者对于用户来说,其实差别并不大。
目前,大部分大模型 API 并不直接支持多模态输入,所以我们还是更多地将语音先转文字,然后再让大模型进行处理。
语音转文字也有很多选择,比如字节火山引擎提供大模型语音识别,微软 Azure 也提供语音识别服务,我们波波熊学伴产品用的是微软 Azure 的语音识别服务。在这里我们就以这个为例子,通过实战来看看语音识别文字具体该怎么实现。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 语音输入对于特定产品,如儿童产品,具有重要意义,因为这是低龄孩子的主要输入方式。 2. 大模型API通常需要先将语音转换为文字,然后再进行处理,因此语音转文字的服务在实际应用中具有重要作用。 3. 在微软Azure中,创建一个 Speech Service 服务,选择订阅方式、资源组、地域和付费价格等级,然后获取Keys and endpoint信息以及进入Speech Studio管理界面。 4. 实现波波熊学伴语音输入需要配置Key和Region,然后在项目中进行相应的操作。 5. 语音输入有两种形式,一种是直接将语音数据传给大模型,另一种是通过文本转语音的模型将语音识别为文字,然后再传给大模型。 6. 目前大部分大模型API并不直接支持多模态输入,因此通常会先将语音转换为文字,然后再让大模型进行处理。 7. 在实际应用中,语音转文字的服务如微软Azure的语音识别服务对于多模态输入具有重要作用。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《跟月影学前端智能体开发》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部