数据分析实战45讲
陈旸
清华大学计算机博士
立即订阅
17314 人已学习
课程目录
已完结 48 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 你为什么需要数据分析能力?
免费
第一模块:数据分析基础篇 (16讲)
01丨数据分析全景图及修炼指南
02丨学习数据挖掘的最佳路径是什么?
03丨Python基础语法:开始你的Python之旅
04丨Python科学计算:用NumPy快速处理数据
05丨Python科学计算:Pandas
06 | 学数据分析要掌握哪些基本概念?
07 | 用户画像:标签化就是数据的抽象能力
08 | 数据采集:如何自动化采集数据?
09丨数据采集:如何用八爪鱼采集微博上的“D&G”评论
10丨Python爬虫:如何自动化下载王祖贤海报?
11 | 数据科学家80%时间都花费在了这些清洗任务上?
免费
12 | 数据集成:这些大号一共20亿粉丝?
13 | 数据变换:考试成绩要求正态分布合理么?
14丨数据可视化:掌握数据领域的万金油技能
15丨一次学会Python数据可视化的10种技能
16丨数据分析基础篇答疑
第二模块:数据分析算法篇 (20讲)
17 丨决策树(上):要不要去打篮球?决策树来告诉你
18丨决策树(中):CART,一棵是回归树,另一棵是分类树
19丨决策树(下):泰坦尼克乘客生存预测
20丨朴素贝叶斯分类(上):如何让机器判断男女?
21丨朴素贝叶斯分类(下):如何对文档进行分类?
22丨SVM(上):如何用一根棍子将蓝红两色球分开?
23丨SVM(下):如何进行乳腺癌检测?
24丨KNN(上):如何根据打斗和接吻次数来划分电影类型?
25丨KNN(下):如何对手写数字进行识别?
26丨K-Means(上):如何给20支亚洲球队做聚类?
27丨K-Means(下):如何使用K-Means对图像进行分割?
28丨EM聚类(上):如何将一份菜等分给两个人?
29丨EM聚类(下):用EM算法对王者荣耀英雄进行划分
30丨关联规则挖掘(上):如何用Apriori发现用户购物规则?
31丨关联规则挖掘(下):导演如何选择演员?
32丨PageRank(上):搞懂Google的PageRank算法
33丨PageRank(下):分析希拉里邮件中的人物关系
34丨AdaBoost(上):如何使用AdaBoost提升分类器性能?
35丨AdaBoost(下):如何使用AdaBoost对房价进行预测?
36丨数据分析算法篇答疑
第三模块:数据分析实战篇 (7讲)
37丨数据采集实战:如何自动化运营微博?
38丨数据可视化实战:如何给毛不易的歌曲做词云展示?
39丨数据挖掘实战(1):信用卡违约率分析
40丨数据挖掘实战(2):信用卡诈骗分析
41丨数据挖掘实战(3):如何对比特币走势进行预测?
42丨当我们谈深度学习的时候,我们都在谈什么?
43丨深度学习(下):如何用Keras搭建深度学习网络做手写数字识别?
第四模块:数据分析工作篇 (2讲)
44丨如何培养你的数据分析思维?
45丨求职简历中没有相关项目经验,怎么办?
加餐 (1讲)
加餐丨在社交网络上刷粉刷量,技术上是如何实现的?
结束语 (1讲)
结束语丨当大家都在讲知识和工具的时候,我更希望你重视思维和实战
数据分析实战45讲
登录|注册

09丨数据采集:如何用八爪鱼采集微博上的“D&G”评论

陈旸 2019-01-02
上一讲我给你讲了数据采集的来源,其中有一个很关键的工具叫做八爪鱼,今天我们就用八爪鱼实战模拟一下如何进行数据采集。
在文末你可以看到我操作的流程视频。

八爪鱼的基本操作

在开始操作前,我先来介绍下今天要讲的主角“八爪鱼”工具。相比使用 Python 进行爬虫,八爪鱼的使用更加简便,因为是所见即所得的方式,基本上不需要编写代码,除了在正则表达式匹配的时候会用到 XPath。
这里简单介绍下 XPath,XPath 的英文是 XML Path Language,也就是 XML 的路径语言,用来在 XML 文件中寻找我们想要的元素。所以八爪鱼可以使用 XPath 帮我们更灵活地定位我们想要找的元素。
自定义任务 VS 简易采集
如果你想要采集数据就需要新建一个任务,在建任务的时候,八爪鱼会给你一个提示,是使用八爪鱼自带的“简易采集”,还是自定义一个任务。
简易采集集成了一些热门的模板,也就是我们经常访问的一些网站。它可以帮助我们轻松地实现采集,只需要我们告诉工具两个信息即可,一个是需要采集的网址,另一个是登录网站的账号和密码。
虽然简易采集比较方便快捷,但通常还是推荐使用自定义任务的方式,这样可以更灵活地帮我们提取想要的信息,比如你只想采集关于“D&G”的微博评论。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《数据分析实战45讲》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(62)

  • fancy
    老师能不能推荐一两个Mac上能用的爬虫工具呢?只有集搜客有Mac版但是是付费的。。。
    2019-01-02
    1
    25
  • 蜘蛛的梦呓
    老师,能否出个大致的演示视频,有些小细节不知道怎么点。
    2019-01-02
    20
  • 海滨
    mac有个和八抓鱼类似的工具叫后羿采集器,使用mac的同学可以体验下~
    2019-01-13
    15
  • JingZ
    #2019/1/2晚19:40分左右爬虫

    通过虚拟系统的八爪鱼,直接爬微博,没使用登录名,输入"D&G",提取用户、图片、内容、时间、来自客户端,共用时19分钟56秒,采集了2442多条,有效数据2103,339条重复,得到的数据来看,有些是分开的D和G,下一步该是要清洗相关的数据了~

    作者回复: 👍👍认真做练习的同学

    2019-01-02
    12
  • 闫东汉
    在微博才离数据的第五部卡住了,是否能录制一个操作视频,这样更直观的能够看到。
    第五步是选中子元素,没有这一个选项。更没有选中全部
    2019-01-02
    1
    9
  • 自己用八爪鱼在58同城上采集了本地二手房的放假,表示房价还是很硬啊。
    2019-01-07
    6
  • JingZ
    #2019/1/2 22:00pm 任务海王的影评采集2340(在未登录状态下)

    打开网页豆瓣海王影评https://movie.douban.com/subject/3878007/reviews
    用时12分钟58秒,共采集2235条(1条重复),但是展开的部分没有采集出来,重新后来设置展开扩容了,数据预览时对的,并且设置了AJax为3秒,然后速度超级慢,也没有采集到展开的内容了,是哪儿设置不对吗?请老师指点~
    2019-01-02
    6
  • 深白浅黑
    这个是第一次用工具爬取数据,一直以为只能自己写python代码才能爬数据呢……谢谢老师分享。
    遗憾的是评论不能附图。我把抓取结果描述一下,豆瓣关于海王的电影评论有117页,我只爬取了100页,返回了500条用户评论。
    爬取的属性有“爬取时间、作品名、作品ID、作品链接、评论者ID、评论者主页、短评内容、短评发布时间、短评有用数、星级评分数”,其中短评发布时间和星级评分数存在空值。后续的情感分析就可以上NLP了。
    但不可否认的是工具的功能超出了我的想象!原来数据采集还能这么玩!
    很期待后续的数据分析实战课程,以及数据图形可视化的思路和实现方法!
    2019-01-02
    5
  • 舒成
    随着5G的到来,任何一件事都可能成为一个大的Ip;我们的世界再也不是有限的思维纬度可以进行处置的,多维数据思考纬度是我们必须关注,必须学会的。
    昨天利用itchat爬了自己微信号的数据,还是很有意思的。希望跟着老师的步伐,自己养成解决问题的能力。
    2019-01-02
    4
  • kyle
    随着知识付费越来越普及,优质的数据源越来越难通过简单爬取的方式获得,现在屯着数据,将来会不会很值钱?

    作者回复: 需求永远是第一位的。如果你了解市场的需求,在低价的时候进入数据,在高位的时候卖出,是可以获利的。关键还是对市场需求的把握。我有个朋友是做教育行业的,就通过低买高卖的方式挣了第一桶金

    2019-01-02
    4
  • 推荐一款mac上 和八爪鱼类似的采集器-后羿采集器,下载地址:http://www.houyicaiji.com 智能采集模式和八爪鱼的新建任务采集一样的操作流程,还提供了另外一种流程图采集模式,自己设计流程图采集。与八爪鱼类似的是自带了防屏蔽功能,不同的是在采集过程中可以直接设置去除重复数据。这节课的所有练习都是在这款软件上完成的。
    2019-04-09
    1
    3
  • lingmacker
    为什么我选择元素没有出现子元素的选项
    2019-01-15
    3
  • 吃饭睡觉打窦窦
    豆瓣影评中,点击评级的星星,选采集该元素的Outer Html可以获得代码,包含了力荐(5星)推荐(4星)信息,但是想知道有更好的方法吗?
    2019-02-23
    2
  • 欧阳
    不知道为啥,按照视频操作,有时候爬着爬着八爪鱼会卡住在某一页,不爬了,但是也没有弹出错误采集的信息。
    2019-02-12
    2
  • 漫长的战斗
    现在新版的八爪鱼在抓取内容是没有识别出元素内的子元素?
    2019-01-24
    2
  • 周萝卜
    使用python的requests库爬去,最后生成词云
    https://github.com/zhouwei713/haiwang_comment
    2019-01-03
    2
  • 深白浅黑
    有问题,评论总量是2333条,而八爪鱼只爬取了500条……开始排查问题。
    2019-01-02
    2
  • JingZ
    周末提前在Mac安装了virtual box虚拟系统,学了八爪鱼官网的基础教程,走了下流程视图,模拟了下抓取京东/淘宝/58同城/微信的固定、不固定列表、文本循环、url循环,先入门下了~简易、自定义、向导、智能四种模式原理相同,还是自定义用得多~的确虚拟系统跑下来还是不是很方便,需要个专属mac版,或者还是学会python爬虫~
    2019-01-02
    2
  • twelve
    实践了一下豆瓣,不需要账号和密码,但是微博搜索需要登陆,登陆这个还不知道怎么操作
    2019-07-20
    1
  • 寻心
    使用八爪鱼获取海王评论时
    输入‘海王’后,点击搜索按钮
    八爪鱼自带浏览器没有搜索内容,而其他浏览器有搜索内容
    希望老师能给出问题原因,以及解决办法
    2019-05-29
    1
收起评论
62
返回
顶部