• sunlight001
    2018-12-13
    在公司里没有接触大数据的机会,要想深入学习的话,需要怎么办呢,现在不管是看书,看demo,等总是感觉不深入,有什么好的办法吗
    
     16
  • bill
    2018-12-13
    老师,文中的图是用什么软件得出的?

    作者回复: 自己开发,后面会讲到。

    
     6
  • 吴科🍀
    2018-12-13
    我们公司集群作业最多的就是SQL作业约占80%,不管是hive SQL还是spark SQL,presto的SQL引擎都不是完美的,执行任务都有可能卡住99%就不动了。优化业务逻辑,SQL的写法是关键,减少重复计算,共用中间结果,还要有分区表的感念。

    作者回复: 👍🏻

     1
     4
  • 暴风雪
    2018-12-14
    1.第一个案例的代码,关于文件锁的范围,我有强迫症,就是把锁的范围再缩小一点,仅仅锁住判断下载的那段代码就好啦。
    2.关于案例5,我有点看不懂网络使用率的图,为什么是50多秒的延迟,能不能用红圈圈一下。
    
     2
  • 杰之7
    2018-12-13
    通过这节的阅读学习,通过第一个大数据实战产品,了解了性能调优的一般流程,通过性能测试,分析资源瓶颈,分析系统架构及代码,通过架构,代码及基础设施来进行调优,最后在进行测试。

    老师通过5个方面进行的分析说明,1,Spark任务文件初始化调优,2,Spark任务调度优化,3,Spark应用配置优化,4,操作系统优化,5,硬件优化。通过这些维度的分析,我进一步的知道,做大数据开发,一样需要有好的计算机基本功,这是每一个技术人员的底层能力。

    所以大数据开发中都会涉及到硬件,系统,大数据产品及其配置,应用程序开发和部署等实际经验,学习到这里,我需要真正做一判断,是真正决定走技术路,在接下来至少10年的时间去做技术呢?还是为了仅仅熟悉大数据方面的知识,适可而止呢?

    我作为一名平凡而不想平庸的人,过程中再难我也会一路前行。
    展开
    
     2
  • 桃园悠然在
    2018-12-13
    第三步【分析系统架构、代码,发现资源利用关键所在,思考优化策略】思考过程中可以拿阿姆达尔法则做指引,选出优化收益最大的模块
    
     2
  • 往事随风,顺其自然
    2018-12-13
    怎么实现操作的,讲解安利有什么具体指标?超过多少算不合理
    
     2
  • Forever hu
    2019-12-23
    坐而论道
    
    
  • godtrue
    2019-09-28
    😜还没实际用大数据的东西,先自己开阔视野学习学习。
    
    
  • aof
    2019-09-12
    又看了一遍,觉得老师在代码方面功底很强!

    作者回复: ^_^

    
    
  • 小老鼠
    2019-01-17
    1、你们用的是什么性能测试工具?
    2、hadoop、spark是用java语言开发的吗?若是现在支持JDK9吗?
    
    
  • 木白
    2019-01-08
    在第二个案例中说到,先注册的Executor可能会认领全部的任务,也就是说其所在的物理机会把那个stage的全部工作都做了吗?但是本着“移动计算比移动数据更划算的理论”,如果所有的任务都在一台机器上做岂不是会导致数据的移动?不知道我的理解有没有错哈

    作者回复: 是的,数据会有更多移动

    
    
  • 追梦小乐
    2018-12-14
    李老师,案例2中说的 Worker 提供的计算单元数 默认是有几十个的吗?同时是不是可以根据spark.default.parallelism这个来指定的吗?
    
    
  • 往事随风,顺其自然
    2018-12-13
    代码直接提交到apache?为什么不能直接下找
    
    
我们在线,来聊聊吧