• 布兰特
    2021-03-16
    四年Spark经验 乖乖的来听课

    作者回复: 共同进步~

    
    12
  • zhongmin
    2021-08-23
    老师平时是怎么利用spark的官网文档的呢?感觉官网文档很全,但是比较的多,看着看着就忘记了

    作者回复: 把它当个手册或者字典,有需要的时候再查。内容太多了,没必要地毯式扫描,平时开发的时候,有API忘了,或者某个函数忘了,再去翻就是了。翻得多了,一些常用的机会记得比较牢了。 那些不太常用的,暂时不理他好了~ 没关系的。总之是问题导向、目的导向。

    
    4
  • aof
    2021-05-01
    这个五一打算把这门课从头开始学完赶上老师更新的进度。先分享下自己在使用Spark过程中的一些经验吧:很多的调优参数都是需要根据任务的数据量、计算量来动态调整的,很多时候并不是是说资源申请的越多性能就越好,有时候资源申请过多反而会出问题。

    作者回复: 没错,严重同意,调优的本质是“平衡”,是一门关于平衡的学问。光靠怼硬件是不对的,既不经济、也不划算,最重要的是,出不来效果。 看到你的名字,让我想起曾经打Dota的时光,哈哈哈!AOE(Area Of Effect)范围性技能,老弟五一节快乐!一起加油~

    
    3
  • 赵鹏举
    2021-12-22
    请问下对于几万列的标签表,应该如何存储? 宽表本身会不会写入非常慢?是将所有字段打横到宽表还是压缩到map?业界有什么通用做法吗?

    作者回复: 敢问老兄是什么场景,需要存储几万列的宽表?一定要用这么大的宽表吗?是否可以考虑数仓中星型模型或是雪花模型的设计呢?

    
    1
  • 威猛的小老虎
    2021-05-19
    老师,请问下你是如何系统的学习spark的优化。目前学习感觉没有什么切入点

    作者回复: 咱们的专栏就是在讲Spark优化的套路呀~ 先是方法论,然后是理论基础、调优技巧,技巧又分为通用技巧和Spark SQL技巧。希望专栏的内容能帮到你哈~

    
    1
  • 果子
    2021-05-13
    老师可不可以分享一下数据探索,特征工程的一些经验。

    作者回复: 这个范畴有点略大哈~ 具体指的哪方面呢? 我们确实是算法团队,做机器学习在计算广告业务的应用和落地,整条机器学习流水线上涉及的环节比较多,比如: 数据提取、处理、清洗、探索 特征工程、样本工程 模型训练、预测、验证 你说的数据探索和特征工程,具体想了解哪方面呢?是数据处理的逻辑、或者说功能上的用法?还是说性能上的调优?如果是性能调优的话,其实27、28、29讲会有不少真实的调优案例,那些都来自于我们平时的工作,到时候可以关注下哈~

    共 4 条评论
    1
  • lumos
    2022-02-09
    从零基础入门spark来的,老师的课不仅知识含量丰富,也很有趣,能感受到字里行间都是对技术的热爱

    作者回复: 欢迎欢迎~ 感谢认可哈~

    
    
  • Ping E Lee
    2022-01-06
    没有Spark使用经验可以学习该课程吗?

    作者回复: 可以的~ 课程深入浅出,有很多的故事、类比,帮助大家理解消化

    
    
  • 赵鹏举
    2021-10-30
    请问有介绍如何能看懂sparksql执行计划吗?

    作者回复: 有的~

    共 3 条评论
    
  • 浩然
    2021-10-10
    用的比较多的是SparkSQL,大概是18年开始搞的。听课学习学习。

    作者回复: 互相学习~

    
    