LLM 自主智能体应用实战课
李锟
资深软件架构师,前阿里巴巴高级技术专家
2000 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已更新 19 讲/共 24 讲
准备篇:掌握 LLM 应用开发的必备基础 (2讲)
入门篇:实战 Autonomous Agent 相关开发框架 (11讲)
LLM 自主智能体应用实战课
15
15
1.0x
00:00/00:00
登录|注册

18|企业员工AI助理开发前的扫雷工作

你好,我是李锟。
上节课,我初步讲解了企业员工 AI 助理的技术架构设计。一节课的篇幅无法讲解完一个真实企业应用架构设计的全貌,不过好在设计和开发是迭代式的 ,我们还有机会回来完善设计,这个应用复杂度不太高,不必过于追求设计文档的完备性。

与 UI 设计团队密切协作

在应用的详细需求文档完成后,可以同时并行开展的两项工作是应用的 UI 设计和技术架构设计。UI 设计可以划分为两个阶段:
UI 原型设计:使用某种 UI 原型设计工具(例如墨刀)设计出界面原型。与团队成员讨论。
详细 UI 设计:基于讨论通过的 UI 原型设计,完成详细 UI 设计。再次与团队成员讨论。
虽然 UI 设计和技术架构设计这两项工作是并行开展的,然而应用架构师需要密切关注 UI 设计的工作,并且积极参与相关讨论,因为 UI 设计也会影响到架构设计方面的一些决策。
AI 助理的 UI 设计除了传统的那种 GUI 外,还需要支持全新的 NUI (Natural User Interface,自然用户界面),AI 助理的 UI 有一半是传统 GUI,另一半是 NUI。团队的开发人员也有必要学习一下 NUI 的特点和相关技术,其中最重要的就是 VUI (语音用户界面)。与 VUI 直接相关的技术是语音语言模型 (Speech LM),我们需要延续上节课的工作,对语音语言模型做一个技术选型。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 企业员工AI助理的技术架构设计需要与UI设计团队密切协作,特别需要关注NUI(自然用户界面)和VUI(语音用户界面)的设计。 2. 选择OpenAI的Whisper作为AI助理使用的语音语言模型产品,需要考虑部署方式和多模态LLM的硬件配置要求。 3. AI助理的开发需要解决支持多模态输入/输出和通过API访问AutoGPT Server的两个主要技术难点。 4. 在本地部署和使用Whisper时,需要安装ffmpeg,并使用Python开发库和WebUI产品来支持通过浏览器调用Whisper。 5. Whisper的模型文件需要提前下载,且模型大小会影响语音识别效果。 6. 运行AI助理的Web应用需要修改run.py文件,并通过浏览器访问Whisper。 7. Web应用在调用服务器本地部署的Whisper做完语音识别后,还会调用Google Translate API进行翻译。 8. 实现在网页中输入文本+语音,在服务器端调用Whisper库将语音转换为文本,并根据输入生成对应的idea或action条目,保存到数据库中.

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《LLM 自主智能体应用实战课》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部
文章页面操作
MAC
windows
作用
esc
esc
退出沉浸式阅读
shift + f
f11
进入/退出沉浸式
command + ⬆️
home
滚动到页面顶部
command + ⬇️
end
滚动到页面底部
⬅️ (仅针对订阅)
⬅️ (仅针对订阅)
上一篇
➡️ (仅针对订阅)
➡️ (仅针对订阅)
下一篇
command + j
page up
向下滚动一屏
command + k
page down
向上滚动一屏
p
p
音频播放/暂停
j
j
向下滚动一点
k
k
向上滚动一点
空格
空格
向下滚动一屏
播放器操作
MAC
windows
作用
esc
esc
退出全屏
⬅️
⬅️
快退
➡️
➡️
快进
空格
空格
视频播放/暂停(视频全屏时生效)