你将获得
“1. 掌握多模态 Agent 产品设计与技术方案制定
2. 学会文本驱动的内容生成技术与工具应用
3. 掌握 Gradio 高效开发与主题内容扩展方法
4. 理解语音识别集成与多模态输入实现逻辑
5. 学会图像识别集成、智能配图及容器化部署”
课程介绍
本课程聚焦多模态 Agent 实战开发,以 ChatPPT 项目为核心展开。从企业办公场景调研切入,解析多模态 Agent 产品设计与技术方案。通过实战掌握 python-pptx 实现文本到内容生成,运用 Gradio 开发主题内容与母版布局扩展功能。深入集成语音识别(ASR)技术,解决语音输入权限与服务发布问题。进一步整合图像识别与多模态模型,实现多模态输入功能。最后通过集成智能配图 Agent、单元测试与容器化发布,完成 ChatPPT 全流程开发,助力学员掌握多模态 Agent 从设计到落地的实战技能。
课程目录
" 第一章:ChatPPT 市场调研与产研设计
1. 企业办公场景市场调研与分析
2. ChatPPT 产品设计与技术方案
3. ChatPPT v0.1 (pre-release) 设计与实践
第二章:ChatPPT 实现文本到内容的生成
1. python-pptx 库快速入门与实践
2. Demo 演示
3. ChatPPT v0.2 文本到内容生成功能研发
第三章:ChatPPT 主题内容生成与母版布局扩展
1. Gradio 5 高效应用开发快速入门
2. ChatPPT v0.3 产品设计与研发
第四章:ChatPPT 集成语音输入与域名发布
1. 自动语音识别(ASR)概述
2. SOTA 模型:OpenAI Whisper Large v3
3. Hugging Face Transformers 入门
4. ASR 服务托管、解决语音输入权限问题、服务发布
5. ChatPPT v0.4 语音识别与层次化内容布局
第五章:ChatPPT 图像识别集成与多模态输入
1. 图像识别算法概述
2. 图像识别领域研究及新方向
3. ChatPPT 图像识别(多模态模型)集成
4. ChatPPT 多模态输入功能 设计与研发
第六章:ChatPPT 智能配图与容器化发布
1. ChatPPT v0.6 方案对比、技术实现、关键模块及原型测试
2. ChatPPT 集成智能配图 Agent(Image Advisor)
3. ChatPPT v0.7 单元测试与容器化发布 "











