多模态 Agent 实战开发

你将获得

“1. 掌握多模态 Agent 产品设计与技术方案制定
2. 学会文本驱动的内容生成技术与工具应用
3. 掌握 Gradio 高效开发与主题内容扩展方法
4. 理解语音识别集成与多模态输入实现逻辑
5. 学会图像识别集成、智能配图及容器化部署”

课程介绍

本课程聚焦多模态 Agent 实战开发，以 ChatPPT 项目为核心展开。从企业办公场景调研切入，解析多模态 Agent 产品设计与技术方案。通过实战掌握 python-pptx 实现文本到内容生成，运用 Gradio 开发主题内容与母版布局扩展功能。深入集成语音识别（ASR）技术，解决语音输入权限与服务发布问题。进一步整合图像识别与多模态模型，实现多模态输入功能。最后通过集成智能配图 Agent、单元测试与容器化发布，完成 ChatPPT 全流程开发，助力学员掌握多模态 Agent 从设计到落地的实战技能。

课程目录

" 第一章：ChatPPT 市场调研与产研设计
1. 企业办公场景市场调研与分析
2. ChatPPT 产品设计与技术方案
3. ChatPPT v0.1 (pre-release) 设计与实践

第二章：ChatPPT 实现文本到内容的生成
1. python-pptx 库快速入门与实践
2. Demo 演示
3. ChatPPT v0.2 文本到内容生成功能研发

第三章：ChatPPT 主题内容生成与母版布局扩展
1. Gradio 5 高效应用开发快速入门
2. ChatPPT v0.3 产品设计与研发

第四章：ChatPPT 集成语音输入与域名发布
1. 自动语音识别（ASR）概述
2. SOTA 模型：OpenAI Whisper Large v3
3. Hugging Face Transformers 入门
4. ASR 服务托管、解决语音输入权限问题、服务发布
5. ChatPPT v0.4 语音识别与层次化内容布局

第五章：ChatPPT 图像识别集成与多模态输入
1. 图像识别算法概述
2. 图像识别领域研究及新方向
3. ChatPPT 图像识别（多模态模型）集成
4. ChatPPT 多模态输入功能设计与研发

第六章：ChatPPT 智能配图与容器化发布
1. ChatPPT v0.6 方案对比、技术实现、关键模块及原型测试
2. ChatPPT 集成智能配图 Agent（Image Advisor）
3. ChatPPT v0.7 单元测试与容器化发布 "

查看更多

订阅须知

订阅成功后，推荐通过“极客时间”App 端、Web 端学习。
本课程为虚拟商品，交付形式为视频，一经订阅，概不退款。
订阅后分享海报，每邀一位好友订阅有现金返现。
戳此先充值再购课更划算，还有最新课表、超值赠品福利。
企业采购推荐使用“极客时间企业版”便捷安排员工学习计划，掌握团队学习仪表盘。
戳此申请学生认证，订阅课程享受原价 5 折优惠。
价格说明：划线价、订阅价为商品或服务的参考价，并非原价，该价格仅供参考。未划线价格为商品或服务的实时标价，具体成交价格根据商品或服务参加优惠活动，或使用优惠券、礼券、赠币等不同情形发生变化，最终实际成交价格以订单结算页价格为准。

讲师

彭靖田

LangChain 开发者，谷歌开发者专家

" 彭靖田，Google Developers Expert，加州大学圣迭戈分校访问学者，在美国期间从事深度学习与生物医疗技术的结合研究。毕业于浙江大学竺可桢学院，获计算机科学学士学位。开源项目 Kubeflow 维护者，TensorFlow 贡献者，曾一度成为...查看更多