09丨数据采集:如何用八爪鱼采集微博上的“D&G”评论
陈旸
该思维导图由 AI 生成,仅供参考
上一讲我给你讲了数据采集的来源,其中有一个很关键的工具叫做八爪鱼,今天我们就用八爪鱼实战模拟一下如何进行数据采集。
在文末你可以看到我操作的流程视频。
八爪鱼的基本操作
在开始操作前,我先来介绍下今天要讲的主角“八爪鱼”工具。相比使用 Python 进行爬虫,八爪鱼的使用更加简便,因为是所见即所得的方式,基本上不需要编写代码,除了在正则表达式匹配的时候会用到 XPath。
这里简单介绍下 XPath,XPath 的英文是 XML Path Language,也就是 XML 的路径语言,用来在 XML 文件中寻找我们想要的元素。所以八爪鱼可以使用 XPath 帮我们更灵活地定位我们想要找的元素。
自定义任务 VS 简易采集
如果你想要采集数据就需要新建一个任务,在建任务的时候,八爪鱼会给你一个提示,是使用八爪鱼自带的“简易采集”,还是自定义一个任务。
简易采集集成了一些热门的模板,也就是我们经常访问的一些网站。它可以帮助我们轻松地实现采集,只需要我们告诉工具两个信息即可,一个是需要采集的网址,另一个是登录网站的账号和密码。
虽然简易采集比较方便快捷,但通常还是推荐使用自定义任务的方式,这样可以更灵活地帮我们提取想要的信息,比如你只想采集关于“D&G”的微博评论。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
八爪鱼是一款强大的数据采集工具,本文详细介绍了如何使用八爪鱼进行微博数据采集的操作流程。相比于传统的Python爬虫,八爪鱼采用所见即所得的方式,无需编写代码,极大地简化了数据采集的流程。文章重点介绍了八爪鱼的基本操作步骤,包括输入网页、设计流程和启动采集等。此外,还介绍了流程视图和XPath的使用,以及如何处理不规律页面的数据采集。通过详细的操作步骤和使用建议,本文帮助读者快速了解了如何使用八爪鱼进行数据采集,为读者提供了实用的技术指导。文章还强调了使用第三方工具进行数据采集的重要性,以及可视化方式的优势,为读者提供了实用的技术建议。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《数据分析实战 45 讲》,新⼈⾸单¥59
《数据分析实战 45 讲》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(79)
- 最新
- 精选
- 海滨mac有个和八抓鱼类似的工具叫后羿采集器,使用mac的同学可以体验下~
作者回复: 对 后羿采集器 滢同学就在用这个
2019-01-1330 - 滢推荐一款mac上 和八爪鱼类似的采集器-后羿采集器,下载地址:http://www.houyicaiji.com 智能采集模式和八爪鱼的新建任务采集一样的操作流程,还提供了另外一种流程图采集模式,自己设计流程图采集。与八爪鱼类似的是自带了防屏蔽功能,不同的是在采集过程中可以直接设置去除重复数据。这节课的所有练习都是在这款软件上完成的。
作者回复: 嗯 不错!
2019-04-09215 - JingZ#2019/1/2晚19:40分左右爬虫 通过虚拟系统的八爪鱼,直接爬微博,没使用登录名,输入"D&G",提取用户、图片、内容、时间、来自客户端,共用时19分钟56秒,采集了2442多条,有效数据2103,339条重复,得到的数据来看,有些是分开的D和G,下一步该是要清洗相关的数据了~
作者回复: 👍👍认真做练习的同学
2019-01-0213 - kyle随着知识付费越来越普及,优质的数据源越来越难通过简单爬取的方式获得,现在屯着数据,将来会不会很值钱?
作者回复: 需求永远是第一位的。如果你了解市场的需求,在低价的时候进入数据,在高位的时候卖出,是可以获利的。关键还是对市场需求的把握。我有个朋友是做教育行业的,就通过低买高卖的方式挣了第一桶金
2019-01-0213 - Untitled实践了一下豆瓣,不需要账号和密码,但是微博搜索需要登陆,登陆这个还不知道怎么操作
作者回复: 不抓鱼这个,你可以先登录微博,然后再抓取,就相当于是登录的状态进行的抓取
2019-07-2034 - 滢用后裔采集器采集到海王短评220条,看介绍说的是549089条,但是我只抓到了220条,开始以为是后页的循环操作设置的不对,然后设置XPath来识别下一页,但数据跑了三遍仍旧是220条,最后无奈自己去网站上点击了一下,发现确实最后还没加载完全就没有后一页了,看来豆瓣也没有把全部数据放出来。
作者回复: 不错的分享,滢同学很厉害,举一反三学会了后裔采集器
2019-04-091 - 滢感觉mac用户比较坑 ,可用的第三方数据采集软件太少,搜到的也是不出名的一些,先用其它软件代替,把虚拟机装好后再用八爪鱼😂😂😂😂😂😂😂😂😂
作者回复: 那你可以自己写爬虫喽,web scrapper爬虫工具 也可以用用
2019-04-091 - Daemon.F.G感觉有点像黑盒自动化测试
作者回复: 对的
2019-02-271 - 执笔,封心爬着爬着,好像ip被封了😂
作者回复: 哈哈 可以一次少爬一些,或者切换IP
2019-01-111 - Kyle老师能不能出个详细的视频指导一下小白 真的不会操作
作者回复: 后面贴了一个操作视频,你可以看下。你也可以加编辑微信,让她拉你入群。里面不少同学已经实现出来了,都可以互动交流
2019-01-0331
收起评论