加餐4｜如何用Coze实现听歌学古诗

月影

你好，我是月影。
在前面的课程里，我们介绍了文本、图像和语音模型，这些都是在 AI 应用中最常用的模型。但实际上，除了这些之外，还有其他一些大模型也在 AI 应用中占有一席之地，这其中主要包括音乐和视频模型。因为有些同学在社群中询问过这类模型的具体应用，所以我特地准备了几篇加餐内容，来带大家实践语音和视觉模型的应用。
在这一篇里，我们通过一个具体的实战例子，来了解如何运用音乐模型，实现听歌学古诗。
我用 Coze 实现的这个听歌学古诗应用叫做“乐府”，用户可以输入一个古诗标题，大模型会自动匹配该古诗的诗词内容，然后二次创作音乐，生成歌曲和配图，完成播放，具体效果如以下视频所示：
 Sorry, your browser doesn't support embedded videos. 
00:00 / 00:00
1.0x
 3.0x 
 2.5x 
 2.0x 
 1.5x 
 1.25x 
 1.0x 
 0.75x 
 0.5x 
音量
网页全屏
全屏
00:00
这个应用用到了文本、图像和音乐大模型，我们来一步步看它是如何实现的。
首先我们在 Coze 中创建一个应用。
接着我们进入业务逻辑编辑面板，开始创建工作流。
在这里，我们有两个工作流要创建，一个是由诗歌生成音乐的主工作流 Prosody，另一个则是播放音频字幕的工作流 Lyrics。
为什么我们要拆成两个工作流呢？是因为 Coze 平台创建应用时，通过低代码编辑生成 UI 的能力十分有限，既没法处理类似于 JS 中 Timer 一类的需求，也不支持用户自定义的播放器。所以我们只好退而求其次，通过巧妙实现工作流的方式来实现歌词与音乐播放的同步。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. Coze平台的“乐府”应用利用音乐模型实现了用户输入古诗标题后自动生成诗词内容，并进行二次创作音乐，生成歌曲和配图。 2. 应用使用了文本、图像和音乐大模型，通过创建两个工作流来实现歌词与音乐播放的同步。 3. 应用中的音乐生成插件和图像大模型插件的使用可能需要付费，用户可以根据情况具体选择是否购买扣子会员并开通付费。 4. 应用通过巧妙实现工作流的方式来实现歌词与音乐播放的同步，因为Coze平台创建应用时，通过低代码编辑生成UI的能力有限，不支持用户自定义的播放器。 5. 应用中的音乐大模型通过“添加插件>搜索‘音乐生成’”来添加，需要选择lyrics_gen_song插件，它可以具体传入歌词，根据歌词生成音乐。 6. 应用中的图像大模型插件用于生成封面提示词，根据歌词正文生成图片提示词，适用于AI绘图。 7. 通过对原古诗词二次创作，AI作曲，配图的工作流，完成了需要生成的内容，同时通过延时输出的工作流巧妙地实现了歌词和乐曲的同步。 8. 通过调用工作流 API，用自己实现的 UI 界面来解决歌曲和歌词不同步的问题。 9. 在这个应用中，我们只实现了生成和播放音乐功能，但并没有将生成的歌曲保存下来，可以尝试增加存储历史生成歌曲的功能，并增加查看历史生成歌曲的UI界面。 10. Coze应用的界面能实现的功能有限，可以通过直接调用工作流API的方式，自己实现UI来解决问题。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《跟月影学前端智能体开发》，新⼈⾸单¥59

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论