数据分析实战45讲
陈旸
清华大学计算机博士
立即订阅
17333 人已学习
课程目录
已完结 48 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 你为什么需要数据分析能力?
免费
第一模块:数据分析基础篇 (16讲)
01丨数据分析全景图及修炼指南
02丨学习数据挖掘的最佳路径是什么?
03丨Python基础语法:开始你的Python之旅
04丨Python科学计算:用NumPy快速处理数据
05丨Python科学计算:Pandas
06 | 学数据分析要掌握哪些基本概念?
07 | 用户画像:标签化就是数据的抽象能力
08 | 数据采集:如何自动化采集数据?
09丨数据采集:如何用八爪鱼采集微博上的“D&G”评论
10丨Python爬虫:如何自动化下载王祖贤海报?
11 | 数据科学家80%时间都花费在了这些清洗任务上?
免费
12 | 数据集成:这些大号一共20亿粉丝?
13 | 数据变换:考试成绩要求正态分布合理么?
14丨数据可视化:掌握数据领域的万金油技能
15丨一次学会Python数据可视化的10种技能
16丨数据分析基础篇答疑
第二模块:数据分析算法篇 (20讲)
17 丨决策树(上):要不要去打篮球?决策树来告诉你
18丨决策树(中):CART,一棵是回归树,另一棵是分类树
19丨决策树(下):泰坦尼克乘客生存预测
20丨朴素贝叶斯分类(上):如何让机器判断男女?
21丨朴素贝叶斯分类(下):如何对文档进行分类?
22丨SVM(上):如何用一根棍子将蓝红两色球分开?
23丨SVM(下):如何进行乳腺癌检测?
24丨KNN(上):如何根据打斗和接吻次数来划分电影类型?
25丨KNN(下):如何对手写数字进行识别?
26丨K-Means(上):如何给20支亚洲球队做聚类?
27丨K-Means(下):如何使用K-Means对图像进行分割?
28丨EM聚类(上):如何将一份菜等分给两个人?
29丨EM聚类(下):用EM算法对王者荣耀英雄进行划分
30丨关联规则挖掘(上):如何用Apriori发现用户购物规则?
31丨关联规则挖掘(下):导演如何选择演员?
32丨PageRank(上):搞懂Google的PageRank算法
33丨PageRank(下):分析希拉里邮件中的人物关系
34丨AdaBoost(上):如何使用AdaBoost提升分类器性能?
35丨AdaBoost(下):如何使用AdaBoost对房价进行预测?
36丨数据分析算法篇答疑
第三模块:数据分析实战篇 (7讲)
37丨数据采集实战:如何自动化运营微博?
38丨数据可视化实战:如何给毛不易的歌曲做词云展示?
39丨数据挖掘实战(1):信用卡违约率分析
40丨数据挖掘实战(2):信用卡诈骗分析
41丨数据挖掘实战(3):如何对比特币走势进行预测?
42丨当我们谈深度学习的时候,我们都在谈什么?
43丨深度学习(下):如何用Keras搭建深度学习网络做手写数字识别?
第四模块:数据分析工作篇 (2讲)
44丨如何培养你的数据分析思维?
45丨求职简历中没有相关项目经验,怎么办?
加餐 (1讲)
加餐丨在社交网络上刷粉刷量,技术上是如何实现的?
结束语 (1讲)
结束语丨当大家都在讲知识和工具的时候,我更希望你重视思维和实战
数据分析实战45讲
登录|注册

16丨数据分析基础篇答疑

陈旸 2019-01-18
截止到今天,我们已经将数据分析基础篇的内容都学习完了。在这个过程中,感谢大家积极踊跃地进行留言,既给其他同学提供了不少帮助,也让专栏增色了不少。在这些留言中,有很多同学对某个知识点有所疑惑,我总结了 NumPy、Pandas、爬虫以及数据变换中同学们遇到的问题,精选了几个具有代表性的来作为答疑。

NumPy 相关

答疑 1:如何理解 NumPy 中 axis 的使用?
这里我引用文稿中的一段代码:
a = np.array([[4,3,2],[2,4,1]])
print np.sort(a)
print np.sort(a, axis=None)
print np.sort(a, axis=0)
print np.sort(a, axis=1)
同学们最容易混淆的是 axis=0 和 axis=1 的顺序。你可以记住:axis=0 代表跨行(实际上就是按列),axis=1 代表跨列(实际上就是按行)。
如果排序的时候,没有指定 axis,默认 axis=-1,代表就是按照数组最后一个轴来排序。如果 axis=None,代表以扁平化的方式作为一个向量进行排序。
所以上面的运行结果为:
[[2 3 4]
[1 2 4]]
[1 2 2 3 4 4]
[[2 3 1]
[4 4 2]]
[[2 3 4]
[1 2 4]]
我解释下 axis=0 的排序结果,axis=0 代表的是跨行(跨行就是按照列),所以实际上是对 [4, 2] [3, 4] [2, 1] 来进行排序,排序结果是 [2, 4] [3, 4] [1, 2],对应的是每一列的排序结果。还原到矩阵中也就是 [[2 3 1], [4, 4, 2]]。

答疑 2:定义结构数组中的 S32 代表什么意思
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《数据分析实战45讲》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(27)

  • HxScript
    这个答疑课是真的良心了。。。。。。
    2019-01-18
    40
  • 許敲敲
    np.sort(a,axis=0)
    第二题 就会最简单的request 加beautifulsoup.
    加re表达式,爬过 地铁网站 机械专业论坛
    2019-01-18
    3
  • 🦍小梓桐🌙
    关于numpy中的axis,可以理解成旋转轴或者映射,尤其是高维数组,不应该死记硬背。0是第一维度,也就是行,在行上的映射也就是每一列。以此类推。
    2019-07-05
    2
  • 几何
    pyquery解析网页挺好用的
    2019-03-24
    2
  • 一语中的
    import numpy as np
    a = np.array([[4,3,2],[2,4,1]])
    print (np.sort(a, axis=0) )

    关于爬虫:
    1.selenium+chrome/chromeless/phatomJS, 可以处理页面加载后,需要运行javaScript,元素才会显示的情况;
    2.Scrapy 爬虫框架,针对数据量大,层级嵌套较多的网页,框架中用到yield生成器,是关键
    3.解析,lxml,bs4包,正则表达式等
    2019-02-25
    2
  • 任欣
    使用过Python中的beautiful soup挖掘招聘网站中的人员信息。解析网页比较快,但是遇到验证码的问题比较难搞,如果遇见比较难搞的验证码,比如火车票的验证码,怎么办
    2019-01-19
    2
  • Mingjie
    我简单学过scrapy,很容易上手的爬虫框架,用cookie解决登录问题,
    2019-01-19
    1
  • Grandia_Z
    报个到,已经上了18讲了,打算利用周末的时间回顾下做个期中复习(^_^)a
    2019-01-18
    1
  • xqs42b
    import numpy as np
    a = np.array([[4, 3, 2], [2, 4, 1]])
    for i range(len(a)):
       sorted(list(a[i], reverse=False))

    老师我想做一个编程的数据分析师,可以往那个方向走!
    2019-07-08
  • 薛定谔的猫
    无界面浏览器最厉害,fiddler三方工具配合手机模拟器适合抓难抓的数据,比如说淘宝,re的正则是最万能的
    2019-07-01
  • Shawn
    import numpy as np
    a = np.array([[4,3,2],[2,4,1]])
    print(a)
    a.sort(axis=0,kind='quicksort',order = None)
    print(a)
    2019-06-19
  • 泄矢的呼啦圈
    # 评论没啥有用内容,纯夸,加热度
    虽然看到这里的时候前面遇到的疑惑已经自行搜索解决了,还是要为老师的处理方式点赞啊(之前看老师回复相对较少,还以为已经不对评论区内容跟进了)
    2019-04-17
  • 随便讲两句
    ChromeDriver要留意版本问题,老师上面留的地址是对应Chrome 72的。
    应该到 https://npm.taobao.org/mirrors/chromedriver/ 下载对应版本(暂时最新是74)。
    2019-04-03
  • 几何
    chromedriver那个需要下载和自己电脑chrome版本相对应的chromedriver
    2019-03-24
  • 尚科
    在一些教材中,数据预处理环节,有一致性检验,具体含义、作用是什么?有没有什么场景举例
    2019-03-20
  • 周飞
    按列排序:
    import numpy as np
    a = np.array([[4,3,2],[2,4,1]])
    print (np.sort(a,axis=0))
    2019-02-28
  • Chen
    需要和陈老师讨论一个问题,在网上看到有前辈讲关于“逻辑回归是否需要进行标准化?”,答案是取决于逻辑回归是不是用正则。讲的原因是不用正则时,仅仅是度量预测与真实值的差距,加上正则后,损失函数除了要度量差距外还要度量参数值是否足够小。。而参数值的大小程度或者说大小的级别是与特征的数值范围相关的。您是否同意呢?您讲是当用到梯度下降作为优化器,提高寻找最优解的效率而做标准化。这个前辈讲的是否有道理呢?我比较迷糊了。
    2019-02-18
  • 路过蜻蜓
    第一题:
    import numpy as np
    a = np.array([[4,3,2],[2,4,1]])
    print (np.sort(a, axis=0) )
    第二题
    爬虫用的是requests,分析用的比较多的是xpath,有时会用re,re有些优势是xpath不能替代的。beautiful soup 会用,但不用,因为抓取速度是比xpath和re慢。用过senlenium 和headless chromedriver 抓取过一些只用javascript生成数据的网页,xhr都抓不出什么数据的,加密的太严格了。senlenium的确可以无脑抓取网页,但很容易崩溃,不稳定,Puppeteer没有用过,之后会尝试去替代senlenium来抓取。
    2019-02-16
  • 王彬成
    第一道题:假设矩阵 a = np.array([[4,3,2],[2,4,1]]),请你编写代码将矩阵中的每一列按照从小到大的方式进行排序。
    import numpy as np
    a = np.array([[4,3,2],[2,4,1]])
    print (np.sort(a, axis=0) )
    第二道题:你都用过哪些 Python 爬虫工具,抓取过哪些数据,觉得哪个工具好用?
    1、爬虫工具用过八爪鱼采集器,原因是简单可视化操作。
    2、也是用过python的requests库,另外加beautiful解析
    2019-02-16
  • 程序员小熊猫
    1. 按列,axis=0
    a = np.array([[4,3,2], [2, 4, 1]])
    np.sort(a, axis=0)

    2.目前就用了跟老师一样的。requests,selenium,
    2019-02-13
收起评论
27
返回
顶部