11｜动手实战：让简报助手每日自动获取最新数据

叶伟民

你好，我是叶伟民。
上节课，我们看到“AI 读报小助手”这个案例，由此大致了解了新开一个全新 RAG 项目的整体过程。通过学习不难发现，实现一个全新的 RAG 项目，并非遥不可及。不过，这种方式因为没有使用传统 MIS 系统的代码，对于有些同学来说比较陌生，从而望而生畏。
不用担心，具体实现起来并没有想象中的那么难！这节课我们就进入动手环节，学完今天这一讲，对于如何实现这样一个项目，你就会了然于胸了。
如何获取我们所需要的数据我们前面提到，AI 应用有三大支柱——算法、算力、数据。算法就是我们所采用的大模型，算力我们使用百度文心大模型 API。
上一章的案例里，我们使用了 MIS 系统里的现有数据。在这个实战案例里面，我们并没有现有数据可用，所以需要录入数据。
那么如何录入数据呢？
如果像上一个实战案例 MIS 系统那样一条一条录入，速度太慢，周期太长。等数据积累到可以跑大模型应用的程度，黄花菜都凉了。所以我们需要加快数据录入速度，最好是马上能用的那种。这样的话靠人工录入肯定是不可能的，只能靠机器自动录入。
那么如何靠机器自动录入呢？一般来说有两种方式。
通过调用数据提供方提供的 API 获取。
通过爬虫爬取网页进行解析。
一般来说，对于同一家数据提供方，我建议先采取第一种方法。只有在第一种方法不可行的前提下，我们再考虑采取第二种方法。这是因为和第一种方法相比，第二种方法的难度、工作量要高上一个甚至几个数量级，甚至很多时候是不可行的（比如数据提供方采取了反爬措施）。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
法语
德语
日语
韩语
俄语
西班牙语
解释
总结

1. 介绍了如何通过调用数据提供方提供的API或者通过爬虫爬取网页进行解析来获取所需数据，并重点介绍了使用Python中的feedparser库来解析RSS和Atom订阅源，以及如何保存获取的数据。 2. 详细介绍了创建项目、搭建环境以及获取数据的核心部分，包括创建虚拟环境、安装相关依赖、获取数据的代码编写和保存数据的方法。 3. 介绍了如何通过任务计划来实现每日获取最新数据，包括创建bat文件和设置任务计划的步骤。 4. 提到了使用feedparser库从RSS数据源获取数据的简单方法，以及将获取的数据保存为本地json文件的步骤。 5. 强调了亲自上手操作的重要性，以及持续学习、研究的动力和兴趣。 6. 下一节课的主要内容将包括读取元数据，抓取新闻内容，对新闻进行摘要，翻译标题，翻译全文内容，最后整合成简报。 7. 提到了创建任务计划的具体步骤，包括在Windows系统中设置每日上午9点自动获取最新数据的方法。 8. 建议读者按照课程的讲解亲自上手操作，以便更好地理解和应用所学知识。 9. 介绍了如何通过编写Python代码和设置任务计划来实现自动获取最新数据的方法，以及强调了实践操作的重要性和下一节课的主要内容。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《RAG 系统实战课》，新⼈⾸单¥59

立即购买

登录后留言

精选留言

由作者筛选后的优质留言将会公开显示，欢迎踊跃留言。

收起评论