数据分析实战45讲
陈旸
清华大学计算机博士
立即订阅
17314 人已学习
课程目录
已完结 48 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 你为什么需要数据分析能力?
免费
第一模块:数据分析基础篇 (16讲)
01丨数据分析全景图及修炼指南
02丨学习数据挖掘的最佳路径是什么?
03丨Python基础语法:开始你的Python之旅
04丨Python科学计算:用NumPy快速处理数据
05丨Python科学计算:Pandas
06 | 学数据分析要掌握哪些基本概念?
07 | 用户画像:标签化就是数据的抽象能力
08 | 数据采集:如何自动化采集数据?
09丨数据采集:如何用八爪鱼采集微博上的“D&G”评论
10丨Python爬虫:如何自动化下载王祖贤海报?
11 | 数据科学家80%时间都花费在了这些清洗任务上?
免费
12 | 数据集成:这些大号一共20亿粉丝?
13 | 数据变换:考试成绩要求正态分布合理么?
14丨数据可视化:掌握数据领域的万金油技能
15丨一次学会Python数据可视化的10种技能
16丨数据分析基础篇答疑
第二模块:数据分析算法篇 (20讲)
17 丨决策树(上):要不要去打篮球?决策树来告诉你
18丨决策树(中):CART,一棵是回归树,另一棵是分类树
19丨决策树(下):泰坦尼克乘客生存预测
20丨朴素贝叶斯分类(上):如何让机器判断男女?
21丨朴素贝叶斯分类(下):如何对文档进行分类?
22丨SVM(上):如何用一根棍子将蓝红两色球分开?
23丨SVM(下):如何进行乳腺癌检测?
24丨KNN(上):如何根据打斗和接吻次数来划分电影类型?
25丨KNN(下):如何对手写数字进行识别?
26丨K-Means(上):如何给20支亚洲球队做聚类?
27丨K-Means(下):如何使用K-Means对图像进行分割?
28丨EM聚类(上):如何将一份菜等分给两个人?
29丨EM聚类(下):用EM算法对王者荣耀英雄进行划分
30丨关联规则挖掘(上):如何用Apriori发现用户购物规则?
31丨关联规则挖掘(下):导演如何选择演员?
32丨PageRank(上):搞懂Google的PageRank算法
33丨PageRank(下):分析希拉里邮件中的人物关系
34丨AdaBoost(上):如何使用AdaBoost提升分类器性能?
35丨AdaBoost(下):如何使用AdaBoost对房价进行预测?
36丨数据分析算法篇答疑
第三模块:数据分析实战篇 (7讲)
37丨数据采集实战:如何自动化运营微博?
38丨数据可视化实战:如何给毛不易的歌曲做词云展示?
39丨数据挖掘实战(1):信用卡违约率分析
40丨数据挖掘实战(2):信用卡诈骗分析
41丨数据挖掘实战(3):如何对比特币走势进行预测?
42丨当我们谈深度学习的时候,我们都在谈什么?
43丨深度学习(下):如何用Keras搭建深度学习网络做手写数字识别?
第四模块:数据分析工作篇 (2讲)
44丨如何培养你的数据分析思维?
45丨求职简历中没有相关项目经验,怎么办?
加餐 (1讲)
加餐丨在社交网络上刷粉刷量,技术上是如何实现的?
结束语 (1讲)
结束语丨当大家都在讲知识和工具的时候,我更希望你重视思维和实战
数据分析实战45讲
登录|注册

04丨Python科学计算:用NumPy快速处理数据

陈旸 2018-12-21
上一节我讲了 Python 的基本语法,今天我来给你讲下 Python 中一个非常重要的第三方库 NumPy。
它不仅是 Python 中使用最多的第三方库,而且还是 SciPy、Pandas 等数据科学的基础库。它所提供的数据结构比 Python 自身的“更高级、更高效”,可以这么说,NumPy 所提供的数据结构是 Python 数据分析的基础。
我上次讲到了 Python 数组结构中的列表 list,它实际上相当于一个数组的结构。而 NumPy 中一个关键数据类型就是关于数组的,那为什么还存在这样一个第三方的数组结构呢?
实际上,标准的 Python 中,用列表 list 保存数组的数值。由于列表中的元素可以是任意的对象,所以列表中 list 保存的是对象的指针。虽然在 Python 编程中隐去了指针的概念,但是数组有指针,Python 的列表 list 其实就是数组。这样如果我要保存一个简单的数组 [0,1,2],就需要有 3 个指针和 3 个整数的对象,这样对于 Python 来说是非常不经济的,浪费了内存和计算时间。

使用 NumPy 让你的 Python 科学计算更高效

为什么要用 NumPy 数组结构而不是 Python 本身的列表 list?这是因为列表 list 的元素在系统内存中是分散存储的,而 NumPy 数组存储在一个均匀连续的内存块中。这样数组计算遍历所有的元素,不像列表 list 还需要对内存地址进行查找,从而节省了计算资源。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《数据分析实战45讲》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(240)

  • mickey 置顶
    #!/usr/bin/python
    #vim: set fileencoding:utf-8
    import numpy as np

    '''
    假设一个团队里有5名学员,成绩如下表所示。
    1.用NumPy统计下这些人在语文、英语、数学中的平均成绩、最小成绩、最大成绩、方差、标准差。
    2.总成绩排序,得出名次进行成绩输出。
    '''

    scoretype = np.dtype({
        'names': ['name', 'chinese', 'english', 'math'],
        'formats': ['S32', 'i', 'i', 'i']})

    peoples = np.array(
            [
                ("zhangfei", 66, 65, 30),
                ("guanyu", 95, 85, 98),
                ("zhaoyun", 93, 92, 96),
                ("huangzhong", 90, 88, 77),
                ("dianwei", 80, 90, 90)
            ], dtype=scoretype)

    #print(peoples)

    name = peoples[:]['name']
    wuli = peoples[:]['chinese']
    zhili = peoples[:]['english']
    tili = peoples[:]['math']

    def show(name,cj):
        print name,
        print " |",
        print np.mean(cj),
        print " | ",
        print np.min(cj),
        print " | ",
        print np.max(cj),
        print " | ",
        print np.var(cj),
        print " | ",
        print np.std(cj)

    print("科目 | 平均成绩 | 最小成绩 | 最大成绩 | 方差 | 标准差")
    show("语文", wuli)
    show("英语", zhili)
    show("数学", tili)

    print("排名:")
    ranking =sorted(peoples,cmp = lambda x,y: cmp(x[1]+x[2]+x[3],y[1]+y[2]+y[3]), reverse=True)
    print(ranking)

    作者回复: 写的不错,大家都可以看下。这里他用到了Python自带的sorted函数,用cmp函数和lambda按照三科成绩之和进行排序,并且设置 reverse=True 进行降序排序

    2018-12-21
    2
    27
  • 么春‮脸小的你了亲并‭
    排名第一的同学是用 Python 2 的写法,我用 Python 3 也写一遍,供大家参考。

    # -*- coding: utf-8 -*-
    """
    Created on Sun Jan 20 00:51:28 2019

    @author: Dachun Li
    """
    import numpy as np
    a = np.array([[4,3,2],[2,4,1]])
    print(np.sort(a))
    print(np.sort(a, axis=None))
    print(np.sort(a, axis=0))
    print(np.sort(a, axis=1))

    print("\npart 6 作业\n")

    persontype = np.dtype({
        'names':['name', 'chinese','english','math' ],
        'formats':['S32', 'i', 'i', 'i']})
    peoples = np.array([("ZhangFei",66,65,30),("GuanYu",95,85,98),
           ("ZhaoYun",93,92,96),("HuangZhong",90,88,77),
           ("DianWei",80,90,90)],dtype=persontype)
    #指定的竖列
    name = peoples[:]['name']
    chinese = peoples[:]['chinese']
    english = peoples[:]['english']
    math = peoples[:]['math']
    #定义函数用于显示每一排的内容
    def show(name,cj):
        print('{} | {} | {} | {} | {} | {} '
              .format(name,np.mean(cj),np.min(cj),np.max(cj),np.var(cj),np.std(cj)))

    print("科目 | 平均成绩 | 最小成绩 | 最大成绩 | 方差 | 标准差")
    show("语文", chinese)
    show("英语", english)
    show("数学", math)

    print("排名:")
    #用sorted函数进行排序
    ranking = sorted(peoples,key=lambda x:x[1]+x[2]+x[3], reverse=True)
    print(ranking)

    2019-01-20
    1
    50
  • Zahputor
    老师你好,我想问一下axis=0,axis=1,这个应该怎么理解?看得不是很明白

    作者回复: axis=0 是跨行(纵向),axis=1 是跨列(横向)

    2018-12-21
    37
  • (。•́︿•̀。)面团
    percentile那里,50是不是应该是中位数而不是平均数啊?
    2018-12-21
    28
  • Kylin
    基本上…没听懂,一脸懵逼的听完了,老师还能抢救一下吗?是缺点什么基础知识?

    作者回复: 联系编辑,加微信群,我和你电话沟通下,制定学习计划。你也可以把你的情况和遇到的问题,写在评论区里。这样我解答,更多人可以看到

    2018-12-24
    1
    24
  • 何楚
    老师你的课程示范代码是 Python 2.x 的,可能有些新手同学用了 Python 3 环境,所以你的 print 导致运行错误,然后他们就卡住了,不知道如何解决。
    2018-12-21
    13
  • Non-constant
    一、老师问题的回答:
    1.1 效率比较
        Python中的 list 保存的是对象的指针,因此数据量大时很占内存,所以会慢。
        NumPy 数组存储在一个均匀连续的内存块中,这样数组计算遍历所有的元素,不像列表 list 还需要对内存地址进行查找,从而节省了计算资源,比较快。
    1.2 其他数据类型
        例如字典dict、树、图、等等

    二、我的云笔记链接(基本所有代码都验证了一遍):http://note.youdao.com/noteshare?id=dc330cd14b6a354f34167f8e33774177&sub=39A110D2D15A47189E2D33C0051A6F0E

    三、就我感觉老师你在amin()和amax()那里的解释错了?还是说我理解错了?
    amin()时:
        axis=0所选元素应该是[1,4,7], [2,5,8], [3,6,9],然后再选择每一数组中最小的那个值,也即[1,2,3];
        axis=1所选元素应该是[1,2,3], [4,5,6], [7,8,9],然后再选择每一数组中最小的那个值,也即[1,4,7];
    也就是说,axis=0 是列运算;axis=1 是行运算。
    以下是我的代码验证:
    ------------------------------------------------------------------------------------------------
    import numpy as np

    a = np.array([[1,6,3], [4,5,6], [100,8,9]])

    print(a,'\n')
    print(np.amin(a)) # amin(a) 指的是数组中全部元素的最小值
    print(np.amin(a,axis=0)) # axis=0 轴是把元素看成了 [1,4,100], [6,5,8], [3,6,9] 三个元素
    print(np.amin(a,axis=1),'\n') # axis=1 轴是把元素看成了 [1,6,3], [4,5,6], [100,8,9] 三个元素

    print(np.amax(a))
    print(np.amax(a,axis=0))
    print(np.amax(a,axis=1))

    # amin() 用于计算数组中的元素沿指定轴的最小值
    # amax() 用于计算数组中的元素沿指定轴的最大值
    ------------------------------------------------------------------------------------------------
    结果:
    [[ 1 6 3]
     [ 4 5 6]
     [100 8 9]]

    1
    [1 5 3]
    [1 4 8]

    100
    [100 8 9]
    [ 6 6 100]
    ------------------------------------------------------------------------------------------------

    作业题我今晚再更新在我的云笔记中,以上。
    2018-12-21
    1
    12
  • 齐福聪
    老师 percentile参数为50的时候 应该取的是中位数而不是平均值 对么
    2018-12-21
    8
  • 杨延平
    axis: 沿着它排序数组的轴,如果没有数组会被展开,沿着最后的轴排序, axis=0 按列排序,axis=1 按行排序
    2018-12-21
    8
  • Alex王伟健
    看来需要去老师推荐的课学下Python了。。。
    2018-12-21
    7
  • Michael
    中文名字的格式写S32时报错
    2018-12-28
    1
    6
  • Jie
    import sys
    import numpy as np
    persontype = np.dtype({'names':['name','chinese','english','math','total'],'formats':['S32','i','i','i','i']})
    peoples = np.array([('zhangfei',66,65,30,0),('guanyu',95,85,98,0),("zhanyun",93,92,96,0),('huanghzong',90,88,77,0),('dianwei',80,90,90,0)],dtype = persontype)
    peoples[:]['total']= peoples[:]['chinese'] +peoples[:]['english']+peoples[:]['math']
    print (peoples)
    print(peoples.dtype.names)
    for col in peoples.dtype.names:
    if col =='name' or col == 'total' :
    continue
    print ("mean of {}:{}".format(col,np.mean(peoples[:][col])))
    print ("amax of {}:{}".format(col,np.amax(peoples[:][col])))
    print ("amin of {}:{}".format(col,np.amin(peoples[:][col])))
    print ("std of {}:{}".format(col,np.std(peoples[:][col])))
    print ("var of {}:{}".format(col,np.var(peoples[:][col])))

    print(np.sort(peoples,order ='total'))
    2018-12-24
    6
  • 何楚
    #!/usr/bin/env python3
    # -*- coding: utf-8 -*-

    import numpy as np
    persontype = np.dtype({
        'names': ['name', 'chinese', 'math', 'english'],
        'formats': ['S32', 'i', 'i', 'i']})
    peoples = np.array([("ZhangFei", 66, 65, 30), ("GuanYu", 95, 85, 98),
                        ("ZhaoYun", 93, 92, 96), ("HuangZhong", 90, 88, 77),
                        ("DianWei", 80, 90, 90)],
                       dtype=persontype)
    for col in peoples.dtype.names:
    # print(col)
        if col is "name":
            continue
        print("mean of {}: {}".format(col, peoples[col].mean()))
        print("min of {}: {}".format(col, peoples[col].min()))
        print("max of {}: {}".format(col, peoples[col].max()))
        print("var of {}: {}".format(col, peoples[col].var()))
        print("std of {}: {}".format(col, peoples[col].std()))

    report = np.empty([0, 0])
    for i in range(peoples.size):
        sum_score = peoples['chinese'][i] + peoples['english'][i] + peoples['math'][i]
        #print(sum_score)
        report = np.append(report, [ sum_score])
    report = -np.sort(-report)
    print("sorted score:")
    print(report)

    怎么在 numpy 里作成绩求和还不是很清楚。另外,想把成绩和名字按排序后打印出来,要用索引,赶时间没研究,等看别人的结果。

    作者回复: 你在求三科成绩的各种统计指标的时候,写的不错
    你提到的如何在numpy中求和,其实在定义结构数组的时候,可以多定义一列total
    peoples[:]['total'] = peoples[:]['chinese']+peoples[:]['english']+peoples[:]['math']
    然后按照total进行排序即可
    print np.sort(peoples, order='total')

    2018-12-21
    3
    6
  • 蜉蝣
    关于axis参数的问题,我也有点模糊,后来知乎上看到这篇文章,思路清晰多了,也推荐大家看一下:https://zhuanlan.zhihu.com/p/30960190
    2019-03-24
    5
  • 从未在此
    根据我在网上找的学习资料,axis=0,代表跨行;=1代表跨列,这样很容易理解。

    作者回复: 对的 理解正确

    2018-12-21
    5
  • JingZ
    (1)NumPy相对Python更高级和更高效,数组存储在均匀连续的内存块,节约计算资源;矢量化的指针指令和多线程矩阵计算提升计算效率;避免隐氏拷贝,采取就地操作。

    (2)数据结构,Python常用应是array,tuple,list,dictionary,set,其他听过的有stack,graph,hash,heap,tree等~理论待老师深入

    (3)练习题代码,最后一点还需要想一想怎么按总成绩排名输出?感觉代码重复性有点高,有更更简洁的代码?

    import numpy as np

    persontype = np.dtype({
        'names':['name','chinese','english','math'],
        'formats':['S32','i','i','i']})

    peoples = np.array([("ZhangFei",66,65,30),("GuanYu",95,85,98), ("ZhaoYun",93,92,96),("HuangZhong",90,88,77),("DianWei",80,90,90)],dtype=persontype)

    #语文、英语、数学
    chineses = peoples[:]['chinese']
    englishs = peoples[:]['english']
    maths = peoples[:]['math']

    #平均成绩
    print(np.mean(chineses))
    print(np.mean(englishs))
    print(np.mean(maths))

    #最小成绩
    print(np.amin(chineses))
    print(np.amin(englishs))
    print(np.amin(maths))

    #最大成绩
    print(np.amax(chineses))
    print(np.amax(englishs))
    print(np.amax(maths))

    #方差
    print(np.std(chineses))
    print(np.std(englishs))
    print(np.std(maths))

    #标准差
    print(np.var(chineses))
    print(np.var(englishs))
    print(np.var(maths))

    #总成绩排序
    print(np.sort(chineses+englishs+maths))

    #按姓名排序
    print(np.sort(peoples,order='name'))
    2018-12-21
    4
  • 离忧
    老师定义结构数组,那个s32 是什么意思呢?
    2018-12-24
    1
    3
  • 抢地瓜的阿姨
    Dataframe 即将登场!哈哈哈

    作者回复: 哈哈哈 是的

    2018-12-22
    3
  • ZHen
    轴的那里,把数组按行列写在纸上,axis=0就是按行来取元素,axis=1就是沿着第一列取元素
    1,2,3
    4,5,6
    7,8,9
    axis=1时,取的元素组合就是[1,4,7],[2,5,8],[3,6,9]
    2018-12-21
    1
    3
  • 小葱拌豆腐
    老师,请问一下您,没学过高数,没接触过计算机语言,要提前去把各种函数搞清楚吗?有没有推荐的办法,书籍,课程?

    作者回复: 我更推荐把我文章里的代码都跑一遍,不明白的地方就留言,效率更高

    2018-12-21
    3
收起评论
99+
返回
顶部