作者回复: 老弟分析得鞭辟入里~ 官方的倍率设计,确实比较粗糙,统计下来,结论实际上也不是十分牢靠。咱们这里用小汽车摇号的例子,初衷还是找一个大家都熟悉的场景,来更好地学习Spark SQL的开发流程~
作者回复: 赞👍,感谢老弟整理Python代码~
作者回复: 棒👍,感谢!~
作者回复: 赞👍!!!感谢老弟~ 后续收录到GitHub~
作者回复: 支持的,不需要Hadoop,spark-shell本地就能跑
作者回复: 从stacktrace来看,报错原因是shuffle write过程中,写shuffle中间文件的时候报错,老弟检查一下spark.local.dir配置的文件系统目录空间是否足够,如果该配置项没有配置的话,Spark默认把中间文件写入到文件系统的/tmp目录,这个目录一般来说空间都不大,很容易写爆的
作者回复: 老弟加我微信吧,搜索“方块K”或是“rJunior”,我QQ邮箱大邮件发你~ 加微信是确保你收到了~
作者回复: 实际上就是常数1,更准确地说,是表示一个常数列,这列的数值都是1。只不过Spark SQL这里的语法比较特殊,其实和Scala没什么关系哈~
作者回复: 赞👍~
作者回复: lit(1)表示常数列,这列的数值都是1,是Spark SQL的语法,跟Scala无关哈~ 倍率制度确实需要更好的设计~ 不过也别放弃,哈哈,万一哪天摇上了呢~