• fancy
    2019-01-02
    老师能不能推荐一两个Mac上能用的爬虫工具呢?只有集搜客有Mac版但是是付费的。。。
     2
     26
  • 蜘蛛的梦呓
    2019-01-02
    老师,能否出个大致的演示视频,有些小细节不知道怎么点。
    
     20
  • 海滨
    2019-01-13
    mac有个和八抓鱼类似的工具叫后羿采集器,使用mac的同学可以体验下~

    作者回复: 对 后羿采集器 滢同学就在用这个

    
     17
  • JingZ
    2019-01-02
    #2019/1/2晚19:40分左右爬虫

    通过虚拟系统的八爪鱼,直接爬微博,没使用登录名,输入"D&G",提取用户、图片、内容、时间、来自客户端,共用时19分钟56秒,采集了2442多条,有效数据2103,339条重复,得到的数据来看,有些是分开的D和G,下一步该是要清洗相关的数据了~

    作者回复: 👍👍认真做练习的同学

    
     12
  • 闫东汉
    2019-01-02
    在微博才离数据的第五部卡住了,是否能录制一个操作视频,这样更直观的能够看到。
    第五步是选中子元素,没有这一个选项。更没有选中全部
     1
     9
  • 胡
    2019-01-07
    自己用八爪鱼在58同城上采集了本地二手房的放假,表示房价还是很硬啊。
    
     7
  • JingZ
    2019-01-02
    #2019/1/2 22:00pm 任务海王的影评采集2340(在未登录状态下)

    打开网页豆瓣海王影评https://movie.douban.com/subject/3878007/reviews
    用时12分钟58秒,共采集2235条(1条重复),但是展开的部分没有采集出来,重新后来设置展开扩容了,数据预览时对的,并且设置了AJax为3秒,然后速度超级慢,也没有采集到展开的内容了,是哪儿设置不对吗?请老师指点~
    
     6
  • 深白浅黑
    2019-01-02
    这个是第一次用工具爬取数据,一直以为只能自己写python代码才能爬数据呢……谢谢老师分享。
    遗憾的是评论不能附图。我把抓取结果描述一下,豆瓣关于海王的电影评论有117页,我只爬取了100页,返回了500条用户评论。
    爬取的属性有“爬取时间、作品名、作品ID、作品链接、评论者ID、评论者主页、短评内容、短评发布时间、短评有用数、星级评分数”,其中短评发布时间和星级评分数存在空值。后续的情感分析就可以上NLP了。
    但不可否认的是工具的功能超出了我的想象!原来数据采集还能这么玩!
    很期待后续的数据分析实战课程,以及数据图形可视化的思路和实现方法!
    展开
    
     6
  • kyle
    2019-01-02
    随着知识付费越来越普及,优质的数据源越来越难通过简单爬取的方式获得,现在屯着数据,将来会不会很值钱?

    作者回复: 需求永远是第一位的。如果你了解市场的需求,在低价的时候进入数据,在高位的时候卖出,是可以获利的。关键还是对市场需求的把握。我有个朋友是做教育行业的,就通过低买高卖的方式挣了第一桶金

    
     5
  • 滢
    2019-04-09
    推荐一款mac上 和八爪鱼类似的采集器-后羿采集器,下载地址:http://www.houyicaiji.com 智能采集模式和八爪鱼的新建任务采集一样的操作流程,还提供了另外一种流程图采集模式,自己设计流程图采集。与八爪鱼类似的是自带了防屏蔽功能,不同的是在采集过程中可以直接设置去除重复数据。这节课的所有练习都是在这款软件上完成的。

    作者回复: 嗯 不错!

     1
     4
  • 舒成
    2019-01-02
    随着5G的到来,任何一件事都可能成为一个大的Ip;我们的世界再也不是有限的思维纬度可以进行处置的,多维数据思考纬度是我们必须关注,必须学会的。
    昨天利用itchat爬了自己微信号的数据,还是很有意思的。希望跟着老师的步伐,自己养成解决问题的能力。
    
     4
  • lingmacker
    2019-01-15
    为什么我选择元素没有出现子元素的选项
    
     3
  • twelve
    2019-07-20
    实践了一下豆瓣,不需要账号和密码,但是微博搜索需要登陆,登陆这个还不知道怎么操作

    作者回复: 不抓鱼这个,你可以先登录微博,然后再抓取,就相当于是登录的状态进行的抓取

     1
     2
  • 吃饭睡觉打窦窦
    2019-02-23
    豆瓣影评中,点击评级的星星,选采集该元素的Outer Html可以获得代码,包含了力荐(5星)推荐(4星)信息,但是想知道有更好的方法吗?
    
     2
  • 欧阳
    2019-02-12
    不知道为啥,按照视频操作,有时候爬着爬着八爪鱼会卡住在某一页,不爬了,但是也没有弹出错误采集的信息。
    
     2
  • 漫长的战斗
    2019-01-24
    现在新版的八爪鱼在抓取内容是没有识别出元素内的子元素?
    
     2
  • 周萝卜
    2019-01-03
    使用python的requests库爬去,最后生成词云
    https://github.com/zhouwei713/haiwang_comment
    
     2
  • 深白浅黑
    2019-01-02
    有问题,评论总量是2333条,而八爪鱼只爬取了500条……开始排查问题。
    
     2
  • JingZ
    2019-01-02
    周末提前在Mac安装了virtual box虚拟系统,学了八爪鱼官网的基础教程,走了下流程视图,模拟了下抓取京东/淘宝/58同城/微信的固定、不固定列表、文本循环、url循环,先入门下了~简易、自定义、向导、智能四种模式原理相同,还是自定义用得多~的确虚拟系统跑下来还是不是很方便,需要个专属mac版,或者还是学会python爬虫~
    
     2
  • 寻心
    2019-05-29
    使用八爪鱼获取海王评论时
    输入‘海王’后,点击搜索按钮
    八爪鱼自带浏览器没有搜索内容,而其他浏览器有搜索内容
    希望老师能给出问题原因,以及解决办法
    
     1
我们在线,来聊聊吧