极客时间-轻松学习，高效学习-极客邦

大叮当
2021-10-14
老师您好，请教您两个问题： 1、除了dataframe，还有个dataset，那dataframe和dataset两种格式，在执行的时候有没有效率、性能这方面差异呢？您更推荐哪种呢 2、Dataset<Row>和Dataset<具体类型>比如Dataset<Person>，这两种是不是性能上也有差异呢？谢谢
作者回复: 好问题~ Dataset咱们一直没讲，先说结论。在执行效率上，Dataset与DataFrame是一样的、一致的，没有区别。他们都能共享Spark SQL提供的性能红利，所以说，从性能的角度，不用担心。包括你提到的Dataset<Row>和Dataset<具体类型>之间，性能上也没有差异。差异主要在开发效率上，对于Dataset<具体类型>，开发者需要定义明确的case class，从而让Spark SQL知道每个字段的具体类型。这其实就涉及到一个开发效率的问题，为什么这么说呢？当应用中的数据集较多的时候，或者说当你需要创建多个Dataset的时候，你都需要定义相应的case class。其实，定义case class还是或多或少有点麻烦的。当然，不同开发者偏好不同，也有喜欢用Dataset开发的。不过，通常来说，DataFrame会来的更直接，简单、易用，所以通常来说DataFrame用的比较多~
13
米哈游牛浚亲
2021-10-20
想请问下，DataFrame API 最终是都会转化成codegen的生成代码吗？还是可选生成RDD或codegen呢
作者回复: 这个不是可选的哈，在Spark SQL框架下，每个执行阶段的代码，Tungsten都会尝试用whole stage code gen捏合到一起，生成一份代码。然后把捏合之后的代码，丢给Spark Core去执行
3
子兮
2021-11-22
老师， spark graphX 也是会把一个stage 的算子合成一个函数执行，但是grapX 是没有用到Tungsten的，所以这种优化方式不应该是spark core 在做的吗？
作者回复: 确实有把Tungsten归类到Spark Core的范畴的，其实我觉得都OK，是归类到Spark Core还是Spark SQL，其实这个倒没那么重要，重要的是，大家理解、吃透Tungsten的各种优化机制就好了哈~
1
legend
2023-03-08 来自中国香港
下面这段话中不再是透明的是不是说反了？应该是“不再是不透明的”吧？这些计算逻辑对 Spark 来说，不再是透明的，因此，Spark 可以基于启发式的规则或策略，甚至是动态的运行时信息，去优化 DataFrame 的计算过程。
共 1 条评论
1
Nicky
2022-12-18 来自广东
请问RDD比Dataframe有什么样的优势吗？课程中有提到RDD 算子多采用高阶函数，表达能力强，能灵活地设计并实现业务逻辑。老师可以详细讲一下RDD的价值吗？