极客时间-轻松学习，高效学习-极客邦

coder

2019-05-31

老师的代码可以po到Github上，这样大家都可以学习了🌝🌝🌝



 12
kylin

2019-06-01

请问为什么不用dateset进行数据处理而是用dateFrame?

作者回复: PySpark的SQL库只有DataFrame，并没有DataSet。不过在Scala和Java中，DataSet已经成为了统一的SQL入口。

 1

 6
ttttt

2019-09-02

终于跑通了，不容易啊，刚开始数据集没下载正确。有空值，老师给的数据集较干净。
别的数据集，要记得去除空值。
下面是实践代码jupyter
https://github.com/LearningChanging/spark-exercise/blob/master/19/CaliforniaHousing.ipynb

作者回复: 给你点赞👍加油



 5
hufox

2019-06-16

最后一句的代码改成 predictionAndLabel[:2] ，可以了！

 2

 3
henry

2019-09-18

最后一步，“模型预测的结果有些偏小”，这一点，从结果上看，不是应该预测的结果要大一些吗？



 1
黄智寿

2019-08-13

老师，你好，数据集的下载地址能发一下吗？



 1
hufox

2019-06-16

在执行最后一句代码predictionAndLabel.take(2)时报错：
AttributeError Traceback (most recent call last)
<ipython-input-35-0700ca2381fb> in <module>
----> 1 predictionAndLabel.take(2)

AttributeError: 'list' object has no attribute 'take'

展开

 2

 1
gotojeff

2019-06-05

dataset不支持python, 所以在python里只有DF，这算不算python的一大劣势？scala是更好的选择？

作者回复: 感谢提问。PySpark现在不支持DataSet，只有Scala和Java支持。这是由语言特性决定的，Python是动态类型的语言，而DataSet是强类型的，要求在编译时检测类型安全。所以，在所有用Python的代码例子中，我用的都是DataFrame。

大部分人都同意在Spark中，Scala和Python是优于Java和R的。至于在Spark生态中，Scala和Python孰优孰劣，这是个很主观的问题，我们不能只因为不支持DataSet这一点就说Python比Scala差。

Scala确实很优秀，Spark原生的实现就是用Scala写的，所以任何新发布的功能肯定支持Scala，官方文档也都是用Scala来举例子。而且Scala的性能要优于Python。但是Python也有很多优点，比如容易学习、应用场景广。这两种语言在Spark的世界中都可以满足我们绝大多数的需求，选择任何一个都不是错误的。

 1

 1
abc-web

2019-06-03

老师代码可以上github吗，这样同学们可以参考下



 1
Zoe

2019-05-31

看前两篇文章时还在想，没什么练手的机会啊，今天就推送了实战练习，有一种终于跟上大神思维的幻觉，开心！

作者回复: 👍



 1
ttttt

2019-09-02

StandardScaler 归一化之后，两列变成 NaN 了搞不明白
+-----+--------------------+--------------------+
|label| features| features_scaled|
+-----+--------------------+--------------------+
|4.526|[129.0,322.0,126....|[NaN,0.2843362208...|
|3.585|[1106.0,2401.0,11...|[NaN,2.1201592122...|
+-----+--------------------+--------------------+

scaled_df.take(2)
[Row(label=4.526, features=DenseVector([129.0, 322.0, 126.0, 8.3252, 6.9841, 2.5556, 0.1466]), features_scaled=DenseVector([nan, 0.2843, 0.3296, 4.3821, 2.8228, 0.2461, nan])),
Row(label=3.585, features=DenseVector([1106.0, 2401.0, 1138.0, 8.3014, 6.2381, 2.1098, 0.1558]), features_scaled=DenseVector([nan, 2.1202, 2.9765, 4.3696, 2.5213, 0.2031, nan]))]

展开

 1


西北偏北

2019-08-05

一些实际的大数据处理，确实需要数学啊……怎么才能把数学学好？

作者回复: 在实践中看到需要可以回头看一下基础知识




毛毛

2019-06-23

老师，建议在案例讲解时对用到的算法大概解释下，比如srandscaler，这不是太清楚什么用处？谢谢



