18|企业员工AI助理开发前的扫雷工作
李锟

你好,我是李锟。
上节课,我初步讲解了企业员工 AI 助理的技术架构设计。一节课的篇幅无法讲解完一个真实企业应用架构设计的全貌,不过好在设计和开发是迭代式的 ,我们还有机会回来完善设计,这个应用复杂度不太高,不必过于追求设计文档的完备性。
与 UI 设计团队密切协作
在应用的详细需求文档完成后,可以同时并行开展的两项工作是应用的 UI 设计和技术架构设计。UI 设计可以划分为两个阶段:
UI 原型设计:使用某种 UI 原型设计工具(例如墨刀)设计出界面原型。与团队成员讨论。
详细 UI 设计:基于讨论通过的 UI 原型设计,完成详细 UI 设计。再次与团队成员讨论。
虽然 UI 设计和技术架构设计这两项工作是并行开展的,然而应用架构师需要密切关注 UI 设计的工作,并且积极参与相关讨论,因为 UI 设计也会影响到架构设计方面的一些决策。
AI 助理的 UI 设计除了传统的那种 GUI 外,还需要支持全新的 NUI (Natural User Interface,自然用户界面),AI 助理的 UI 有一半是传统 GUI,另一半是 NUI。团队的开发人员也有必要学习一下 NUI 的特点和相关技术,其中最重要的就是 VUI (语音用户界面)。与 VUI 直接相关的技术是语音语言模型 (Speech LM),我们需要延续上节课的工作,对语音语言模型做一个技术选型。
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结

1. 企业员工AI助理的技术架构设计需要与UI设计团队密切协作,特别需要关注NUI(自然用户界面)和VUI(语音用户界面)的设计。 2. 选择OpenAI的Whisper作为AI助理使用的语音语言模型产品,需要考虑部署方式和多模态LLM的硬件配置要求。 3. AI助理的开发需要解决支持多模态输入/输出和通过API访问AutoGPT Server的两个主要技术难点。 4. 在本地部署和使用Whisper时,需要安装ffmpeg,并使用Python开发库和WebUI产品来支持通过浏览器调用Whisper。 5. Whisper的模型文件需要提前下载,且模型大小会影响语音识别效果。 6. 运行AI助理的Web应用需要修改run.py文件,并通过浏览器访问Whisper。 7. Web应用在调用服务器本地部署的Whisper做完语音识别后,还会调用Google Translate API进行翻译。 8. 实现在网页中输入文本+语音,在服务器端调用Whisper库将语音转换为文本,并根据输入生成对应的idea或action条目,保存到数据库中.
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《LLM 自主智能体应用实战课》,新⼈⾸单¥59
《LLM 自主智能体应用实战课》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论