跟月影学前端智能体开发
月影
波波熊科技联合创始人
962 人已学习
新⼈⾸单¥59
跟月影学前端智能体开发
15
15
1.0x
00:00/00:00
登录|注册

04|如何在前端调用语音合成和视觉模型

你好,我是月影。
我们知道,AI 大模型应用的输入、输出通常是多模态的,不论大模型本身是否支持不同格式的输入输出,在业务上,我们都能够通过调用不同的服务整合来做到这一点。
在这节课里,我们就来体验一下火山引擎和月之暗面的服务,通过具体实践了解如何使用语音合成和视觉模型。

使用火山引擎语音合成

首先我们注册火山引擎账号,然后进入控制台,搜索并选择“语音技术”。
进入语音技术操作面板后,点击右侧创建应用按钮创建应用。
选择服务勾选“大模型语音合成”和“语音合成”。
创建完毕后,左侧菜单切换到“API 服务中心 > 音频生成大模型 > 语音合成大模型”,右侧可以看到“服务详情”、“音色详情”、“服务接口认证信息”等内容。注意我们要将服务接口认证信息里的 APP ID 和 Access Token 保存下来,后续调用需要用到。
至此火山引擎注册和开通服务部分已经完成,接下来我们就可以创建项目了。
还是在 Trae 中创建一个 Vue 项目并添加 .env.local,配置 AppID、AccessToken 和 ClusterID,以备后续使用。
VITE_APP_ID=5934290469
VITE_ACCESS_TOKEN=c-*********Ln4N
VITE_CLUSTER_ID=volcano_tts
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 火山引擎注册和开通服务后,可以使用语音合成功能,需要设置请求的URL并处理跨域问题。 2. 通过处理返回的JSON格式数据,可以将语音合成的音频进行播放。 3. 语音合成功能通常与文本模型结合使用,以实现特定的智能体应用。 4. 视觉模型在AI应用中起到了分析和理解图片内容的重要作用。 5. Kimi视觉模型支持多种能力,包括moonshot-v1-8k-vision-preview/moonshot-v1-32k-vision-preview/moonshot-v1-128k-vision-preview等。 6. 通过实战学习了语音合成和视觉模型的能力,对实现多模态的AI应用非常有帮助。 7. 语音合成的作用是将文本文字转换为带有真人感情的语音,可在前端播放出来。 8. 视觉大模型能够接受图片输入,分析图片内容并用文字描述出来,或进行其他处理。 9. 课后练习包括修改界面增加音色选择功能,探索语音合成模型的播放方式,以及修改视觉大模型的例子,增加用户要求的输入框。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《跟月影学前端智能体开发》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部