• 顾仲贤
    2018-12-11
    如果是网络问题,可以考虑batch要发送的网络包,打包一起发送。另一个能想到的就是compression.

    作者回复: √

     1
     13
  • Jack Zhu
    2018-12-11
    确定问题细节原因,针对主要问题进行解决
    1.如是网卡接入能力不够,则需要更换网卡或增加网卡
    2.如是网卡--应用之间的io瓶颈,则需要考虑零拷贝减少copy释放性能,使用大页内存减少页表miss,使用专门核心做收包缓存到软队列等

    作者回复: √

    
     11
  • 杰之7
    2018-12-11
            学习完基础篇,来学实战篇的Spark性能优化课程。通过这篇文章的阅读,无论是开源的软件,还是收费的软件,基本上都是被美国人开发出来的,至少这点上我们的路还很远,对于我自身,通过我的学习和实践,我希望至少能通过我的努力做到我想做的数据开发的工作。
            通过对这节内容的阅读,熟悉了开源软件的管理平台Apache,我们可以通过提交自己的代码到开源平台上,一旦经过Commiter通过,我们就是这个开源平台的Contributor。
            在软件性能优化上,不经过性能测试的软件不要优化,不懂其架构设计的软件不要进行性优化。因为性能测试包括多维度的指标,没有对比,何来优化,不懂架构设计,也不可能真正知道性能瓶颈在哪里。基于此,老师讲述了讲述了大数据软件优化的方向,SQL语句的优化,数据倾斜处理,也就是对不需要的数据剔除,Mapreduce、Spark代码优化,因为这些软件是开源,厉害的人就能针对公司具体的产品业务做源码的修改。通过配置参数的优化,也是运维工程师正做的事。
            总之,我们可以通过自己的一点点的努力让自己有那么一点点价值,能做对这个世界上一点有用的东西吧,这就够了。
    展开
    
     5
  • sunlight001
    2018-12-11
    考虑传输压缩,牺牲cpu的办法了

    作者回复: √

    
     5
  • godtrue
    2019-09-28
    1:换更强劲的网卡,千兆换万兆试试
    2:减少数据量,压缩数据,用CPU计算能力减空间
    3:减少IO次数,批量发送数据
    4:从业务逻辑下手,看看是否可以优化逻辑减少IO,或者减少数据量
    5:看看网络是否共享,不是自己的流量打满的网卡,如果是,采用独占的资源使用方式
    6:换一种方式,只发送必要的信息,将计算迁移到接收消息的机器上,或者部分迁移计算逻辑
    展开
    
     4
  • 葛聂
    2018-12-11
    1. in网络打满:增加locality,尽量访问本地数据
    2. out网络打满:优化代码或数据,看能否提前合并减少发送的数据量
    3. 优化container摆放策略或并发数,避免热点
    
     4
  • gogo
    2018-12-11
    1.批量发送数据
    2.压缩传输数据
    3.增加带宽

    还有咩?

    作者回复: √

    
     3
  • 王亚南
    2018-12-11
    经常等待IO,可以考虑使用异步非阻塞IO模型,集体就是建立IO池,从多个链接读入数据,供系统处理。
    
     2
  • Oliver
    2018-12-11
    看到问题后先思考了一下,发现和大家的思路比较一致,分两点看
    1、网卡打满
        1)能否拆分业务执行时间点,因为是性能测试,pass
        2)优化业务逻辑
        3)能否批量发送
        4)升级网络硬件
    2、系统等待
        1)同步IO改为IO多路复用或异步IO
    展开
    
     1
  • 老男孩
    2018-12-11
    因为我对 hadoop,spark也是跟随专栏在学习。不知道计算过程中节点之间通信是一种什么方式?是否可以采用netty这样的网络框架,因为netty的数据读写都是在bytebuf中进行的。而且我们可以自定义channelHandler在数据出站入站的时候编解码,压缩解压。

    作者回复: √

     1
     1
  • 旭
    2018-12-11
    请问文中的几个性能测试的图怎么快速生成呢?

    作者回复: 这个模块最后一期专门讲这个测试工具的设计开发

    
     1
  • 足迹
    2018-12-11
    硬件上可以升级网卡,比如百兆升级到千兆;
    软件上看看是否可以新的版本可以解决;
    逻辑上最关键,尽量做到数据本地性,能本地算好的一定不传输到其他节点。

    作者回复: √

    
     1
  • Jun
    2020-01-04
    关于网卡问题,从硬件角度可以升级带宽和增加网卡。从操作系统角度可以调节网络相关参数。从数据角度可以考虑数据本地性,即让计算节点尽量计算本地或者最近节点上的数据。还有就是reduce可以在做map的节点上先做,传输中间结果到reduce节点上汇总。这样可以减少网络传输
    
    
  • 吕宗霖
    2019-09-02
    Doris不是百度的Palo么?
    
    
  • iK_Leehom
    2019-05-07
    网卡可以比作一条水管,可以从两个角度出发,要么减少水量,要么增加水管
    
    
  • 张云翔
    2019-02-07
    针对业务进行分析 尽量不使用shuffle算子 减少网络开销
    
    
  • Levin
    2019-02-03
    明早是用尽了网卡的能力了,也就是网络瓶颈。
    两个方面,
    第一,提高网卡的能力,换个方式就是更换更强劲的网卡。
    第二,减少程序对网络的请求的压力,具体为频率和数据量。频率可以通过类似程序限流,数据量可以通过调整传输数据格式,协议,达到更小传输,这包括压缩数据,使用简化编码等方式传输更少的数据
    
    
  • 小老鼠
    2019-01-17
    压缩传输或者更换高质量网卡
    
    
  • 修行者
    2018-12-13
    我第一想法,首先是带宽是否不够
    
    
  • John
    2018-12-11
    李老师,我想请教下,Impala 和 Hive 的应用场景区别,换句话,就是什么时候用 Impala 比 Hive 有优势?谢谢

    作者回复: 后面大数据基准测试一期专栏会讨论

    
    
我们在线,来聊聊吧