04｜如何在前端调用语音合成和视觉模型

月影

你好，我是月影。
我们知道，AI 大模型应用的输入、输出通常是多模态的，不论大模型本身是否支持不同格式的输入输出，在业务上，我们都能够通过调用不同的服务整合来做到这一点。
在这节课里，我们就来体验一下火山引擎和月之暗面的服务，通过具体实践了解如何使用语音合成和视觉模型。
使用火山引擎语音合成首先我们注册火山引擎账号，然后进入控制台，搜索并选择“语音技术”。
进入语音技术操作面板后，点击右侧创建应用按钮创建应用。
选择服务勾选“大模型语音合成”和“语音合成”。
创建完毕后，左侧菜单切换到“API 服务中心 > 音频生成大模型 > 语音合成大模型”，右侧可以看到“服务详情”、“音色详情”、“服务接口认证信息”等内容。注意我们要将服务接口认证信息里的 APP ID 和 Access Token 保存下来，后续调用需要用到。
至此火山引擎注册和开通服务部分已经完成，接下来我们就可以创建项目了。
还是在 Trae 中创建一个 Vue 项目并添加 .env.local，配置 AppID、AccessToken 和 ClusterID，以备后续使用。
VITE_APP_ID=5934290469
VITE_ACCESS_TOKEN=c-*********Ln4N
VITE_CLUSTER_ID=volcano_tts

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. 火山引擎注册和开通服务后，可以使用语音合成功能，需要设置请求的URL并处理跨域问题。 2. 通过处理返回的JSON格式数据，可以将语音合成的音频进行播放。 3. 语音合成功能通常与文本模型结合使用，以实现特定的智能体应用。 4. 视觉模型在AI应用中起到了分析和理解图片内容的重要作用。 5. Kimi视觉模型支持多种能力，包括moonshot-v1-8k-vision-preview/moonshot-v1-32k-vision-preview/moonshot-v1-128k-vision-preview等。 6. 通过实战学习了语音合成和视觉模型的能力，对实现多模态的AI应用非常有帮助。 7. 语音合成的作用是将文本文字转换为带有真人感情的语音，可在前端播放出来。 8. 视觉大模型能够接受图片输入，分析图片内容并用文字描述出来，或进行其他处理。 9. 课后练习包括修改界面增加音色选择功能，探索语音合成模型的播放方式，以及修改视觉大模型的例子，增加用户要求的输入框。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《跟月影学前端智能体开发》，新⼈⾸单¥59

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论