11|动手实战:让简报助手每日自动获取最新数据
叶伟民
你好,我是叶伟民。
上节课,我们看到“AI 读报小助手”这个案例,由此大致了解了新开一个全新 RAG 项目的整体过程。通过学习不难发现,实现一个全新的 RAG 项目,并非遥不可及。不过,这种方式因为没有使用传统 MIS 系统的代码,对于有些同学来说比较陌生,从而望而生畏。
不用担心,具体实现起来并没有想象中的那么难!这节课我们就进入动手环节,学完今天这一讲,对于如何实现这样一个项目,你就会了然于胸了。
如何获取我们所需要的数据
我们前面提到,AI 应用有三大支柱——算法、算力、数据。算法就是我们所采用的大模型,算力我们使用百度文心大模型 API。
上一章的案例里,我们使用了 MIS 系统里的现有数据。在这个实战案例里面,我们并没有现有数据可用,所以需要录入数据。
那么如何录入数据呢?
如果像上一个实战案例 MIS 系统那样一条一条录入,速度太慢,周期太长。等数据积累到可以跑大模型应用的程度,黄花菜都凉了。所以我们需要加快数据录入速度,最好是马上能用的那种。这样的话靠人工录入肯定是不可能的,只能靠机器自动录入。
那么如何靠机器自动录入呢?一般来说有两种方式。
通过调用数据提供方提供的 API 获取。
通过爬虫爬取网页进行解析。
一般来说,对于同一家数据提供方,我建议先采取第一种方法。只有在第一种方法不可行的前提下,我们再考虑采取第二种方法。这是因为和第一种方法相比,第二种方法的难度、工作量要高上一个甚至几个数量级,甚至很多时候是不可行的(比如数据提供方采取了反爬措施)。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
1. 介绍了如何通过调用数据提供方提供的API或者通过爬虫爬取网页进行解析来获取所需数据,并重点介绍了使用Python中的feedparser库来解析RSS和Atom订阅源,以及如何保存获取的数据。 2. 详细介绍了创建项目、搭建环境以及获取数据的核心部分,包括创建虚拟环境、安装相关依赖、获取数据的代码编写和保存数据的方法。 3. 介绍了如何通过任务计划来实现每日获取最新数据,包括创建bat文件和设置任务计划的步骤。 4. 提到了使用feedparser库从RSS数据源获取数据的简单方法,以及将获取的数据保存为本地json文件的步骤。 5. 强调了亲自上手操作的重要性,以及持续学习、研究的动力和兴趣。 6. 下一节课的主要内容将包括读取元数据,抓取新闻内容,对新闻进行摘要,翻译标题,翻译全文内容,最后整合成简报。 7. 提到了创建任务计划的具体步骤,包括在Windows系统中设置每日上午9点自动获取最新数据的方法。 8. 建议读者按照课程的讲解亲自上手操作,以便更好地理解和应用所学知识。 9. 介绍了如何通过编写Python代码和设置任务计划来实现自动获取最新数据的方法,以及强调了实践操作的重要性和下一节课的主要内容。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《RAG 系统实战课 》,新⼈⾸单¥59
《RAG 系统实战课 》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论