同学你好,恭喜你,坚持学到这里,我们的课程内容已过半。为了帮助你检验学习成果,我们将本周设置为期中作业周,给你布置了一次项目考核,希望你能花点时间积极参与,讲师会对你提交的作业进行打分和评价!后续课程内容将于 9 月 22 日恢复正常更新。
某金融科技公司需要构建一个智能文档问答系统,用于处理公司内部的政策文档、技术手册和客户服务指南。这些文档包含 PDF、Word、图片等多种格式,需要支持员工快速检索和准确回答相关问题。
请基于课程所学知识,设计并实现一个完整的 RAG 系统,满足以下功能需求:
1. 多源文档解析(20 分)
代码样例:
class DocumentProcessor: def __init__(self): pass def process_pdf(self, file_path: str) -> List[str]: """处理 PDF 文档,返回文本块列表""" pass def process_word(self, file_path: str) -> List[str]: """处理 Word 文档,返回文本块列表""" pass def process_image(self, file_path: str) -> str: """使用 OCR 处理图像,返回提取的文本""" pass
