09丨数据采集：如何用八爪鱼采集微博上的“D&G”评论

陈旸



该思维导图由 AI 生成，仅供参考

上一讲我给你讲了数据采集的来源，其中有一个很关键的工具叫做八爪鱼，今天我们就用八爪鱼实战模拟一下如何进行数据采集。
在文末你可以看到我操作的流程视频。
八爪鱼的基本操作在开始操作前，我先来介绍下今天要讲的主角“八爪鱼”工具。相比使用 Python 进行爬虫，八爪鱼的使用更加简便，因为是所见即所得的方式，基本上不需要编写代码，除了在正则表达式匹配的时候会用到 XPath。
这里简单介绍下 XPath，XPath 的英文是 XML Path Language，也就是 XML 的路径语言，用来在 XML 文件中寻找我们想要的元素。所以八爪鱼可以使用 XPath 帮我们更灵活地定位我们想要找的元素。
自定义任务 VS 简易采集
如果你想要采集数据就需要新建一个任务，在建任务的时候，八爪鱼会给你一个提示，是使用八爪鱼自带的“简易采集”，还是自定义一个任务。
简易采集集成了一些热门的模板，也就是我们经常访问的一些网站。它可以帮助我们轻松地实现采集，只需要我们告诉工具两个信息即可，一个是需要采集的网址，另一个是登录网站的账号和密码。
虽然简易采集比较方便快捷，但通常还是推荐使用自定义任务的方式，这样可以更灵活地帮我们提取想要的信息，比如你只想采集关于“D&G”的微博评论。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

八爪鱼是一款强大的数据采集工具，本文详细介绍了如何使用八爪鱼进行微博数据采集的操作流程。相比于传统的Python爬虫，八爪鱼采用所见即所得的方式，无需编写代码，极大地简化了数据采集的流程。文章重点介绍了八爪鱼的基本操作步骤，包括输入网页、设计流程和启动采集等。此外，还介绍了流程视图和XPath的使用，以及如何处理不规律页面的数据采集。通过详细的操作步骤和使用建议，本文帮助读者快速了解了如何使用八爪鱼进行数据采集，为读者提供了实用的技术指导。文章还强调了使用第三方工具进行数据采集的重要性，以及可视化方式的优势，为读者提供了实用的技术建议。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《数据分析实战 45 讲》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(79)

最新
精选

海滨
mac有个和八抓鱼类似的工具叫后羿采集器，使用mac的同学可以体验下～
作者回复: 对后羿采集器滢同学就在用这个
2019-01-13

30
滢
推荐一款mac上和八爪鱼类似的采集器-后羿采集器，下载地址：http://www.houyicaiji.com 智能采集模式和八爪鱼的新建任务采集一样的操作流程，还提供了另外一种流程图采集模式，自己设计流程图采集。与八爪鱼类似的是自带了防屏蔽功能，不同的是在采集过程中可以直接设置去除重复数据。这节课的所有练习都是在这款软件上完成的。
作者回复: 嗯不错！
2019-04-09
2
15
JingZ
#2019/1/2晚19:40分左右爬虫通过虚拟系统的八爪鱼，直接爬微博，没使用登录名，输入"D&G"，提取用户、图片、内容、时间、来自客户端，共用时19分钟56秒，采集了2442多条，有效数据2103，339条重复，得到的数据来看，有些是分开的D和G，下一步该是要清洗相关的数据了~
作者回复: 👍👍认真做练习的同学
2019-01-02

13
kyle
随着知识付费越来越普及，优质的数据源越来越难通过简单爬取的方式获得，现在屯着数据，将来会不会很值钱？
作者回复: 需求永远是第一位的。如果你了解市场的需求，在低价的时候进入数据，在高位的时候卖出，是可以获利的。关键还是对市场需求的把握。我有个朋友是做教育行业的，就通过低买高卖的方式挣了第一桶金
2019-01-02

13
Untitled
实践了一下豆瓣，不需要账号和密码，但是微博搜索需要登陆，登陆这个还不知道怎么操作
作者回复: 不抓鱼这个，你可以先登录微博，然后再抓取，就相当于是登录的状态进行的抓取
2019-07-20
3
4
滢
用后裔采集器采集到海王短评220条，看介绍说的是549089条，但是我只抓到了220条，开始以为是后页的循环操作设置的不对，然后设置XPath来识别下一页，但数据跑了三遍仍旧是220条，最后无奈自己去网站上点击了一下，发现确实最后还没加载完全就没有后一页了，看来豆瓣也没有把全部数据放出来。
作者回复: 不错的分享，滢同学很厉害，举一反三学会了后裔采集器
2019-04-09

1
滢
感觉mac用户比较坑，可用的第三方数据采集软件太少，搜到的也是不出名的一些，先用其它软件代替，把虚拟机装好后再用八爪鱼😂😂😂😂😂😂😂😂😂
作者回复: 那你可以自己写爬虫喽，web scrapper爬虫工具也可以用用
2019-04-09

1
Daemon.F.G
感觉有点像黑盒自动化测试
作者回复: 对的
2019-02-27

1
执笔，封心
爬着爬着，好像ip被封了😂
作者回复: 哈哈可以一次少爬一些，或者切换IP
2019-01-11

1
Kyle
老师能不能出个详细的视频指导一下小白真的不会操作
作者回复: 后面贴了一个操作视频，你可以看下。你也可以加编辑微信，让她拉你入群。里面不少同学已经实现出来了，都可以互动交流
2019-01-03
3
1

收起评论