RAG 系统实战课
15
15
1.0x
00:00/00:00
登录|注册

11|动手实战:让简报助手每日自动获取最新数据

你好,我是叶伟民。
上节课,我们看到“AI 读报小助手”这个案例,由此大致了解了新开一个全新 RAG 项目的整体过程。通过学习不难发现,实现一个全新的 RAG 项目,并非遥不可及。不过,这种方式因为没有使用传统 MIS 系统的代码,对于有些同学来说比较陌生,从而望而生畏。
不用担心,具体实现起来并没有想象中的那么难!这节课我们就进入动手环节,学完今天这一讲,对于如何实现这样一个项目,你就会了然于胸了。

如何获取我们所需要的数据

我们前面提到,AI 应用有三大支柱——算法、算力、数据。算法就是我们所采用的大模型,算力我们使用百度文心大模型 API。
上一章的案例里,我们使用了 MIS 系统里的现有数据。在这个实战案例里面,我们并没有现有数据可用,所以需要录入数据。
那么如何录入数据呢?
如果像上一个实战案例 MIS 系统那样一条一条录入,速度太慢,周期太长。等数据积累到可以跑大模型应用的程度,黄花菜都凉了。所以我们需要加快数据录入速度,最好是马上能用的那种。这样的话靠人工录入肯定是不可能的,只能靠机器自动录入。
那么如何靠机器自动录入呢?一般来说有两种方式。
通过调用数据提供方提供的 API 获取。
通过爬虫爬取网页进行解析。
一般来说,对于同一家数据提供方,我建议先采取第一种方法。只有在第一种方法不可行的前提下,我们再考虑采取第二种方法。这是因为和第一种方法相比,第二种方法的难度、工作量要高上一个甚至几个数量级,甚至很多时候是不可行的(比如数据提供方采取了反爬措施)。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 介绍了如何通过调用数据提供方提供的API或者通过爬虫爬取网页进行解析来获取所需数据,并重点介绍了使用Python中的feedparser库来解析RSS和Atom订阅源,以及如何保存获取的数据。 2. 详细介绍了创建项目、搭建环境以及获取数据的核心部分,包括创建虚拟环境、安装相关依赖、获取数据的代码编写和保存数据的方法。 3. 介绍了如何通过任务计划来实现每日获取最新数据,包括创建bat文件和设置任务计划的步骤。 4. 提到了使用feedparser库从RSS数据源获取数据的简单方法,以及将获取的数据保存为本地json文件的步骤。 5. 强调了亲自上手操作的重要性,以及持续学习、研究的动力和兴趣。 6. 下一节课的主要内容将包括读取元数据,抓取新闻内容,对新闻进行摘要,翻译标题,翻译全文内容,最后整合成简报。 7. 提到了创建任务计划的具体步骤,包括在Windows系统中设置每日上午9点自动获取最新数据的方法。 8. 建议读者按照课程的讲解亲自上手操作,以便更好地理解和应用所学知识。 9. 介绍了如何通过编写Python代码和设置任务计划来实现自动获取最新数据的方法,以及强调了实践操作的重要性和下一节课的主要内容。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《RAG 系统实战课 》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部
文章页面操作
MAC
windows
作用
esc
esc
退出沉浸式阅读
shift + f
f11
进入/退出沉浸式
command + ⬆️
home
滚动到页面顶部
command + ⬇️
end
滚动到页面底部
⬅️ (仅针对订阅)
⬅️ (仅针对订阅)
上一篇
➡️ (仅针对订阅)
➡️ (仅针对订阅)
下一篇
command + j
page up
向下滚动一屏
command + k
page down
向上滚动一屏
p
p
音频播放/暂停
j
j
向下滚动一点
k
k
向上滚动一点
空格
空格
向下滚动一屏
播放器操作
MAC
windows
作用
esc
esc
退出全屏
⬅️
⬅️
快退
➡️
➡️
快进
空格
空格
视频播放/暂停(视频全屏时生效)