• coder
    2019-05-31
    老师的代码可以po到Github上,这样大家都可以学习了🌝🌝🌝
    
     12
  • kylin
    2019-06-01
    请问为什么不用dateset进行数据处理而是用dateFrame?

    作者回复: PySpark的SQL库只有DataFrame,并没有DataSet。不过在Scala和Java中,DataSet已经成为了统一的SQL入口。

     1
     6
  • ttttt
    2019-09-02
    终于跑通了,不容易啊,刚开始数据集没下载正确。有空值,老师给的数据集较干净。
    别的数据集,要记得去除空值。
    下面是实践代码jupyter
    https://github.com/LearningChanging/spark-exercise/blob/master/19/CaliforniaHousing.ipynb

    作者回复: 给你点赞👍加油

    
     5
  • hufox
    2019-06-16
    最后一句的代码改成 predictionAndLabel[:2] ,可以了!
     2
     3
  • henry
    2019-09-18
    最后一步,“模型预测的结果有些偏小”,这一点,从结果上看,不是应该预测的结果要大一些吗?
    
     1
  • 黄智寿
    2019-08-13
    老师,你好,数据集的下载地址能发一下吗?
    
     1
  • hufox
    2019-06-16
    在执行最后一句代码predictionAndLabel.take(2)时报错:
    AttributeError Traceback (most recent call last)
    <ipython-input-35-0700ca2381fb> in <module>
    ----> 1 predictionAndLabel.take(2)

    AttributeError: 'list' object has no attribute 'take'
    展开
     2
     1
  • gotojeff
    2019-06-05
    dataset不支持python, 所以在python里只有DF,这算不算python的一大劣势?scala是更好的选择?

    作者回复: 感谢提问。PySpark现在不支持DataSet,只有Scala和Java支持。这是由语言特性决定的,Python是动态类型的语言,而DataSet是强类型的,要求在编译时检测类型安全。所以,在所有用Python的代码例子中,我用的都是DataFrame。

    大部分人都同意在Spark中,Scala和Python是优于Java和R的。至于在Spark生态中,Scala和Python孰优孰劣,这是个很主观的问题,我们不能只因为不支持DataSet这一点就说Python比Scala差。

    Scala确实很优秀,Spark原生的实现就是用Scala写的,所以任何新发布的功能肯定支持Scala,官方文档也都是用Scala来举例子。而且Scala的性能要优于Python。但是Python也有很多优点,比如容易学习、应用场景广。这两种语言在Spark的世界中都可以满足我们绝大多数的需求,选择任何一个都不是错误的。

     1
     1
  • abc-web
    2019-06-03
    老师代码可以上github吗,这样同学们可以参考下
    
     1
  • Zoe
    2019-05-31
    看前两篇文章时还在想,没什么练手的机会啊,今天就推送了实战练习,有一种终于跟上大神思维的幻觉,开心!

    作者回复: 👍

    
     1
  • ttttt
    2019-09-02
    StandardScaler 归一化之后,两列变成 NaN 了搞不明白
    +-----+--------------------+--------------------+
    |label| features| features_scaled|
    +-----+--------------------+--------------------+
    |4.526|[129.0,322.0,126....|[NaN,0.2843362208...|
    |3.585|[1106.0,2401.0,11...|[NaN,2.1201592122...|
    +-----+--------------------+--------------------+

    scaled_df.take(2)
    [Row(label=4.526, features=DenseVector([129.0, 322.0, 126.0, 8.3252, 6.9841, 2.5556, 0.1466]), features_scaled=DenseVector([nan, 0.2843, 0.3296, 4.3821, 2.8228, 0.2461, nan])),
     Row(label=3.585, features=DenseVector([1106.0, 2401.0, 1138.0, 8.3014, 6.2381, 2.1098, 0.1558]), features_scaled=DenseVector([nan, 2.1202, 2.9765, 4.3696, 2.5213, 0.2031, nan]))]
    展开
     1
    
  • 西北偏北
    2019-08-05
    一些实际的大数据处理,确实需要数学啊……怎么才能把数学学好?

    作者回复: 在实践中看到需要可以回头看一下基础知识

    
    
  • 毛毛
    2019-06-23
    老师,建议在案例讲解时对用到的算法大概解释下,比如srandscaler,这不是太清楚什么用处?谢谢
    
    
我们在线,来聊聊吧