Spark 2.4重磅发布:优化深度学习框架集成
极客时间编辑部
讲述:杜力大小:1.02M时长:02:14
近日,Databricks 正式发布了 Apache Spark 2.4,作为 Databricks Runtime 5.0 的一部分,将继续以更快、更简单、更智能为目标。
此版本中增加了屏障执行模式,以便更好地与深度学习框架集成。据悉,屏障执行模式是 Hydrogen 的一部分,这是一项 Apache Spark 计划,旨在将最先进的大数据和 AI 技术结合在一起。
在 Spark 2.4 之前,有两种典型的解决方案用于直接操作复杂类型(例如数组类型),一个是将嵌套结构展开为单独的行,应用一些函数,然后再次创建原先的结构,另一个是使用用户定义函数(UDF)。新的内置函数可以直接操作复杂类型,并且可以使用匿名 lambda 函数操作复杂的值,类似于用户定义函数,但是具有更好的性能。
从 Spark 2.4 开始,Spark 将支持 Scala 2.12,并使用 Scala 2.11 和 2.12 进行交叉构建,这两个版本都可以在 Maven 存储库和下载页面中找到。现在,用户可以使用 Scala 2.12 来编写 Spark 应用程序。
另外,Spark 2.4 还为 Avro 数据的读写提供了内置支持。Apache Avro 是一种非常流行的数据序列化格式,被广泛用在 Apache Spark 和 Apache Hadoop 生态系统中,尤其适用于基于 Kafka 的数据管道。
而 Pandas UDF 最初是在 Spark 2.3.0 中引入的。在新版本中,根据用户反馈不断对其进行改进。除了错误修复之外,Spark 2.4 还带来了 2 个新特性:基于 Pandas UDF 定义窗口函数和聚合函数。这些新特性将进一步改善 Pandas UDF 的使用,并且在下一版本中继续改进 Pandas UDF。
除了这些新特性外,新版本还把重点放在了可用性、稳定性和优化上,解决了 1000 个问题。
在未来,Databricks 将发布有关这些特性的深度介绍。有关所有 Spark 组件和 JIRA 已解决的主要特性的完整列表,可以点击文末链接,查阅 Apache Spark 2.4 发行说明。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论