04|如何在前端调用语音合成和视觉模型
月影

你好,我是月影。
我们知道,AI 大模型应用的输入、输出通常是多模态的,不论大模型本身是否支持不同格式的输入输出,在业务上,我们都能够通过调用不同的服务整合来做到这一点。
在这节课里,我们就来体验一下火山引擎和月之暗面的服务,通过具体实践了解如何使用语音合成和视觉模型。
使用火山引擎语音合成
首先我们注册火山引擎账号,然后进入控制台,搜索并选择“语音技术”。

进入语音技术操作面板后,点击右侧创建应用按钮创建应用。

选择服务勾选“大模型语音合成”和“语音合成”。

创建完毕后,左侧菜单切换到“API 服务中心 > 音频生成大模型 > 语音合成大模型”,右侧可以看到“服务详情”、“音色详情”、“服务接口认证信息”等内容。注意我们要将服务接口认证信息里的 APP ID 和 Access Token 保存下来,后续调用需要用到。

至此火山引擎注册和开通服务部分已经完成,接下来我们就可以创建项目了。
还是在 Trae 中创建一个 Vue 项目并添加 .env.local,配置 AppID、AccessToken 和 ClusterID,以备后续使用。
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结

1. 火山引擎注册和开通服务后,可以使用语音合成功能,需要设置请求的URL并处理跨域问题。 2. 通过处理返回的JSON格式数据,可以将语音合成的音频进行播放。 3. 语音合成功能通常与文本模型结合使用,以实现特定的智能体应用。 4. 视觉模型在AI应用中起到了分析和理解图片内容的重要作用。 5. Kimi视觉模型支持多种能力,包括moonshot-v1-8k-vision-preview/moonshot-v1-32k-vision-preview/moonshot-v1-128k-vision-preview等。 6. 通过实战学习了语音合成和视觉模型的能力,对实现多模态的AI应用非常有帮助。 7. 语音合成的作用是将文本文字转换为带有真人感情的语音,可在前端播放出来。 8. 视觉大模型能够接受图片输入,分析图片内容并用文字描述出来,或进行其他处理。 9. 课后练习包括修改界面增加音色选择功能,探索语音合成模型的播放方式,以及修改视觉大模型的例子,增加用户要求的输入框。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《跟月影学前端智能体开发》,新⼈⾸单¥59
《跟月影学前端智能体开发》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论