点击“展开”查看“精华文字稿”
在前面的课程中,我们已经学习了数据清洗的基本步骤和一些常规的数据处理技巧。不过,在实际应用中,我们经常需要处理的数据可不仅限于公司内部数据,很可能还包括网络上公开的数据。这些数据通常嵌入在网页中,要使用它们,你需要先将它们下载到本地,然后应用之前学到的方法进行处理。
这个过程有个名字你应该听说过就是爬虫。爬虫有很多种方式,之前也还是有一些门槛的,不过大模型时代,咱们有了更好的解决方案。今天呢,我们就来学习怎么利用 scrapegraphai 来自动化下载和清洗网络数据。
我想先为你展示一下这个功能的执行效果,咱们看看 scrapegraphai 能帮我们做到什么程度,是不是真值得我们花时间和精力来学会它。
我们通过一个实际的例子来了解这一过程:从豆瓣电影 Top 250(网址:https://movie.douban.com/top250)下载数据,并自动提取电影名称。
这里,我故意简化了提示词为“显示电影名称”,当然,在实际使用中,你应该提供更具体的指令以确保精确获取所需数据。我将在下方展示具体的执行结果。
{'movies': [{'Title': '肖申克的救赎'}, {'Title': '霸王别姬'}, {'Title': '阿甘正传'}, {'Title': '泰坦尼克号'}, {'Title': '千与千寻'}, {'Title': '这个杀手不太 冷'}, {'Title': '美丽人生'}, {'Title': '星际穿越'}, {'Title': '盗梦空间'}, {'Title': '楚门的世界'}, {'Title': '辛德勒的名单'}, {'Title': '忠犬八公的故事'}, {'Title': '海上钢琴师'}, {'Title': '三傻大闹宝莱坞'}, {'Title': '放牛班的春天'}, {'Title': '机器人总动员'}, {'Title': '疯狂动物城'}, {'Title': '无间道'}, {'Title': '控方证人'}, {'Title': '大话西游之大圣娶亲'}, {'Title': '熔炉'}, {'Title': '教父'}, {'Title': '触不可及'}, {'Title': '当幸福来敲门'}, {'Title': '寻梦环游记'}]}
执行过程我也截图放在下方,方便你之后详细解读代码和安装。