AI 数据分析课
登录|注册
留言
收藏
沉浸
阅读
分享
手机端
回顶部
当前播放: 06|AI工具:不用手写代码,让大模型帮你搞定爬虫
00:00 / 00:00
高清
  • 高清
1.0x
  • 2.0x
  • 1.5x
  • 1.25x
  • 1.0x
  • 0.75x
  • 0.5x
网页全屏
全屏
00:00
付费课程,可试看
开篇词|AIGC时代,数据分析可以很简单
01|数据分析入门:从掌握基础流程开始
02|大模型基础:掌握核心原理,知其所以然
03|Prompt提示词:与大模型交互的主要方式
04|让大模型替你干活:数据清洗之自动识别数据格式与纠正异常
05|让大模型帮你干活:数据清洗之处理数据存储形式不一致
06|AI工具:不用手写代码,让大模型帮你搞定爬虫
本节摘要

点击“展开”查看“精华文字稿”

在前面的课程中,我们已经学习了数据清洗的基本步骤和一些常规的数据处理技巧。不过,在实际应用中,我们经常需要处理的数据可不仅限于公司内部数据,很可能还包括网络上公开的数据。这些数据通常嵌入在网页中,要使用它们,你需要先将它们下载到本地,然后应用之前学到的方法进行处理。

这个过程有个名字你应该听说过就是爬虫。爬虫有很多种方式,之前也还是有一些门槛的,不过大模型时代,咱们有了更好的解决方案。今天呢,我们就来学习怎么利用 scrapegraphai 来自动化下载和清洗网络数据。

执行效果演示

我想先为你展示一下这个功能的执行效果,咱们看看 scrapegraphai 能帮我们做到什么程度,是不是真值得我们花时间和精力来学会它。

我们通过一个实际的例子来了解这一过程:从豆瓣电影 Top 250(网址:https://movie.douban.com/top250)下载数据,并自动提取电影名称。

这里,我故意简化了提示词为“显示电影名称”,当然,在实际使用中,你应该提供更具体的指令以确保精确获取所需数据。我将在下方展示具体的执行结果。

复制代码
{'movies': [{'Title': '肖申克的救赎'}, {'Title': '霸王别姬'}, {'Title': '阿甘正传'}, {'Title': '泰坦尼克号'}, {'Title': '千与千寻'}, {'Title': '这个杀手不太 冷'}, {'Title': '美丽人生'}, {'Title': '星际穿越'}, {'Title': '盗梦空间'}, {'Title': '楚门的世界'}, {'Title': '辛德勒的名单'}, {'Title': '忠犬八公的故事'}, {'Title': '海上钢琴师'}, {'Title': '三傻大闹宝莱坞'}, {'Title': '放牛班的春天'}, {'Title': '机器人总动员'}, {'Title': '疯狂动物城'}, {'Title': '无间道'}, {'Title': '控方证人'}, {'Title': '大话西游之大圣娶亲'}, {'Title': '熔炉'}, {'Title': '教父'}, {'Title': '触不可及'}, {'Title': '当幸福来敲门'}, {'Title': '寻梦环游记'}]}

执行过程我也截图放在下方,方便你之后详细解读代码和安装。

登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论