数据分析实战 45 讲
陈旸
清华大学计算机博士
123928 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 49 讲
第二模块:数据分析算法篇 (20讲)
第四模块:数据分析工作篇 (2讲)
数据分析实战 45 讲
15
15
1.0x
00:00/00:00
登录|注册

09丨数据采集:如何用八爪鱼采集微博上的“D&G”评论

启动采集
提取数据
设置翻页
点击搜索
输入关键词
输入网页
启动采集
设计流程
输入网页
自定义任务 VS 简易采集
练习题
建议
使用第三方工具的优势
XPath
流程视图
采集微博上的“Dolce&Gabbana”评论
流程步骤
基本操作
总结
八爪鱼
数据采集

该思维导图由 AI 生成,仅供参考

上一讲我给你讲了数据采集的来源,其中有一个很关键的工具叫做八爪鱼,今天我们就用八爪鱼实战模拟一下如何进行数据采集。
在文末你可以看到我操作的流程视频。

八爪鱼的基本操作

在开始操作前,我先来介绍下今天要讲的主角“八爪鱼”工具。相比使用 Python 进行爬虫,八爪鱼的使用更加简便,因为是所见即所得的方式,基本上不需要编写代码,除了在正则表达式匹配的时候会用到 XPath。
这里简单介绍下 XPath,XPath 的英文是 XML Path Language,也就是 XML 的路径语言,用来在 XML 文件中寻找我们想要的元素。所以八爪鱼可以使用 XPath 帮我们更灵活地定位我们想要找的元素。
自定义任务 VS 简易采集
如果你想要采集数据就需要新建一个任务,在建任务的时候,八爪鱼会给你一个提示,是使用八爪鱼自带的“简易采集”,还是自定义一个任务。
简易采集集成了一些热门的模板,也就是我们经常访问的一些网站。它可以帮助我们轻松地实现采集,只需要我们告诉工具两个信息即可,一个是需要采集的网址,另一个是登录网站的账号和密码。
虽然简易采集比较方便快捷,但通常还是推荐使用自定义任务的方式,这样可以更灵活地帮我们提取想要的信息,比如你只想采集关于“D&G”的微博评论。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

八爪鱼是一款强大的数据采集工具,本文详细介绍了如何使用八爪鱼进行微博数据采集的操作流程。相比于传统的Python爬虫,八爪鱼采用所见即所得的方式,无需编写代码,极大地简化了数据采集的流程。文章重点介绍了八爪鱼的基本操作步骤,包括输入网页、设计流程和启动采集等。此外,还介绍了流程视图和XPath的使用,以及如何处理不规律页面的数据采集。通过详细的操作步骤和使用建议,本文帮助读者快速了解了如何使用八爪鱼进行数据采集,为读者提供了实用的技术指导。文章还强调了使用第三方工具进行数据采集的重要性,以及可视化方式的优势,为读者提供了实用的技术建议。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《数据分析实战 45 讲》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(79)

  • 最新
  • 精选
  • 海滨
    mac有个和八抓鱼类似的工具叫后羿采集器,使用mac的同学可以体验下~

    作者回复: 对 后羿采集器 滢同学就在用这个

    2019-01-13
    30
  • 推荐一款mac上 和八爪鱼类似的采集器-后羿采集器,下载地址:http://www.houyicaiji.com 智能采集模式和八爪鱼的新建任务采集一样的操作流程,还提供了另外一种流程图采集模式,自己设计流程图采集。与八爪鱼类似的是自带了防屏蔽功能,不同的是在采集过程中可以直接设置去除重复数据。这节课的所有练习都是在这款软件上完成的。

    作者回复: 嗯 不错!

    2019-04-09
    2
    15
  • JingZ
    #2019/1/2晚19:40分左右爬虫 通过虚拟系统的八爪鱼,直接爬微博,没使用登录名,输入"D&G",提取用户、图片、内容、时间、来自客户端,共用时19分钟56秒,采集了2442多条,有效数据2103,339条重复,得到的数据来看,有些是分开的D和G,下一步该是要清洗相关的数据了~

    作者回复: 👍👍认真做练习的同学

    2019-01-02
    13
  • kyle
    随着知识付费越来越普及,优质的数据源越来越难通过简单爬取的方式获得,现在屯着数据,将来会不会很值钱?

    作者回复: 需求永远是第一位的。如果你了解市场的需求,在低价的时候进入数据,在高位的时候卖出,是可以获利的。关键还是对市场需求的把握。我有个朋友是做教育行业的,就通过低买高卖的方式挣了第一桶金

    2019-01-02
    13
  • Untitled
    实践了一下豆瓣,不需要账号和密码,但是微博搜索需要登陆,登陆这个还不知道怎么操作

    作者回复: 不抓鱼这个,你可以先登录微博,然后再抓取,就相当于是登录的状态进行的抓取

    2019-07-20
    3
    4
  • 用后裔采集器采集到海王短评220条,看介绍说的是549089条,但是我只抓到了220条,开始以为是后页的循环操作设置的不对,然后设置XPath来识别下一页,但数据跑了三遍仍旧是220条,最后无奈自己去网站上点击了一下,发现确实最后还没加载完全就没有后一页了,看来豆瓣也没有把全部数据放出来。

    作者回复: 不错的分享,滢同学很厉害,举一反三学会了后裔采集器

    2019-04-09
    1
  • 感觉mac用户比较坑 ,可用的第三方数据采集软件太少,搜到的也是不出名的一些,先用其它软件代替,把虚拟机装好后再用八爪鱼😂😂😂😂😂😂😂😂😂

    作者回复: 那你可以自己写爬虫喽,web scrapper爬虫工具 也可以用用

    2019-04-09
    1
  • Daemon.F.G
    感觉有点像黑盒自动化测试

    作者回复: 对的

    2019-02-27
    1
  • 执笔,封心
    爬着爬着,好像ip被封了😂

    作者回复: 哈哈 可以一次少爬一些,或者切换IP

    2019-01-11
    1
  • Kyle
    老师能不能出个详细的视频指导一下小白 真的不会操作

    作者回复: 后面贴了一个操作视频,你可以看下。你也可以加编辑微信,让她拉你入群。里面不少同学已经实现出来了,都可以互动交流

    2019-01-03
    3
    1
收起评论
显示
设置
留言
79
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部