• ttttt
    2019-09-23
    # Mac只能用Python了
    import pandas as pd
    import matplotlib.pyplot as plt

    # 读入清洗好的数据
    df = pd.read_csv('./titanic_train.csv')

    # 数据透视表用到的数据 df_temp
    df_temp = df[['Embarked', 'Survived']]

    # 生成数据透视表
    ## 方法1
    table = pd.pivot_table(df_temp, index=['Embarked'], columns=['Survived'], aggfunc=len)
    table = pd.pivot_table(df_temp, index=['Embarked'], columns=['Survived'], aggfunc=len)
    ## 方法2 数据交叉表
    table = pd.crosstab(df.Embarked, df.Survived)

    # 画图
    table.plot(kind='bar')
    plt.show()

    ----------------分割线 上面是code------------------
    talbe
    # 输出结果
    Survived    0    1
    Embarked        
    C    75    93
    Q    47    30
    S    427    219
    展开

    作者回复: Godo Job

    
     5
  • 海洋
    2019-09-23
    检查全面性修改字段类型时,直接使用Navicat的设计表格功能修改,更快,只不过不利于新手锻炼SQL代码能力,同时可视化这块,一般清洗后,直接导出,然后使用Python或者BI软件进行进一步分析可视化
    
     2
  • 骑行的掌柜J
    2019-12-19
    陈老师 我对这一节的操作全部用MySQL进行了一个实操 中间遇到一些问题 我也全部做了一个整理补充 放到了我的博客里面:https://blog.csdn.net/weixin_41013322/article/details/103616783 希望对后面学习的朋友有帮助 谢谢

    作者回复: 感谢总结和分享

     1
     1
  • 阿飛
    2019-12-29
    有没有oracle for excel
    
    
  • 哈66
    2019-12-16
    老是想问一下收集过来的数据为什么需要清洗啊,能具体举一些使用场景嘛?

    作者回复: 比如Titanic乘客生存预测这个例子,里面有些字段的数值是缺失的,比如Age字段,有些乘客的Age没有,而这个字段对于后续的预测是有影响的,这里就需要通过规则来把这个字段数值进行补齐,比如采用平均值的方式

    
    
  • ABC
    2019-11-30
    WPS同样可以使用,这种方式很方便.所需下载的文件我放到网盘了,地址: 链接: https://pan.baidu.com/s/1Wrq7VcypQiofKp70YaQLBA 提取码: 2avt

    看了这一课,忽然想去买数据分析的课学习一下.

    作者回复: 感谢 数据分析也很实用,包括Kaggle比赛的场景

    
    
  • Venom
    2019-11-12
    找不到数据集的人,这里能下,我也是刚找到。https://download.csdn.net/download/qq_44851287/11142360

    作者回复: 感谢Venom的分享

    
    
  • Elliot
    2019-10-27
    https://www.kaggle.com/c/titanic/data 这个属于github的吗?

    作者回复: 可以从kaggle上下载,也可以从github上下载 https://github.com/cystanford/Titanic_Data

     1
    
  • ttttt
    2019-09-23
    我的Python代码github地址
    https://github.com/LearningChanging/sql_must_konw/tree/master/45-%E6%95%B0%E6%8D%AE%E6%B8%85%E6%B4%97%EF%BC%9A%E5%A6%82%E4%BD%95%E4%BD%BF%E7%94%A8SQL%E5%AF%B9%E6%95%B0%E6%8D%AE%E8%BF%9B%E8%A1%8C%E6%B8%85%E6%B4%97%EF%BC%9F

    作者回复: 加油 感谢分享

    
    
  • ttttt
    2019-09-23
    仅对某一列缺失值处理
    时序数据:线性插值
    频谱数据:重采样
    ……

    作者回复: 不错的缺失值处理方式

    
    
我们在线,来聊聊吧