极客时间-轻松学习，高效学习-极客邦

顾仲贤

2018-12-11

如果是网络问题，可以考虑batch要发送的网络包，打包一起发送。另一个能想到的就是compression.

作者回复: √

 1

 13
Jack Zhu

2018-12-11

确定问题细节原因，针对主要问题进行解决
1.如是网卡接入能力不够，则需要更换网卡或增加网卡
2.如是网卡--应用之间的io瓶颈，则需要考虑零拷贝减少copy释放性能，使用大页内存减少页表miss，使用专门核心做收包缓存到软队列等

作者回复: √



 11
杰之7

2018-12-11

        学习完基础篇，来学实战篇的Spark性能优化课程。通过这篇文章的阅读，无论是开源的软件，还是收费的软件，基本上都是被美国人开发出来的，至少这点上我们的路还很远，对于我自身，通过我的学习和实践，我希望至少能通过我的努力做到我想做的数据开发的工作。
        通过对这节内容的阅读，熟悉了开源软件的管理平台Apache,我们可以通过提交自己的代码到开源平台上，一旦经过Commiter通过，我们就是这个开源平台的Contributor。
        在软件性能优化上，不经过性能测试的软件不要优化，不懂其架构设计的软件不要进行性优化。因为性能测试包括多维度的指标，没有对比，何来优化，不懂架构设计，也不可能真正知道性能瓶颈在哪里。基于此，老师讲述了讲述了大数据软件优化的方向，SQL语句的优化，数据倾斜处理，也就是对不需要的数据剔除，Mapreduce、Spark代码优化，因为这些软件是开源，厉害的人就能针对公司具体的产品业务做源码的修改。通过配置参数的优化，也是运维工程师正做的事。
        总之，我们可以通过自己的一点点的努力让自己有那么一点点价值，能做对这个世界上一点有用的东西吧，这就够了。

展开



 5
sunlight001

2018-12-11

考虑传输压缩，牺牲cpu的办法了

作者回复: √



 5
godtrue

2019-09-28

1：换更强劲的网卡，千兆换万兆试试
2：减少数据量，压缩数据，用CPU计算能力减空间
3：减少IO次数，批量发送数据
4：从业务逻辑下手，看看是否可以优化逻辑减少IO，或者减少数据量
5：看看网络是否共享，不是自己的流量打满的网卡，如果是，采用独占的资源使用方式
6：换一种方式，只发送必要的信息，将计算迁移到接收消息的机器上，或者部分迁移计算逻辑

展开



 4
葛聂

2018-12-11

1. in网络打满：增加locality,尽量访问本地数据
2. out网络打满：优化代码或数据，看能否提前合并减少发送的数据量
3. 优化container摆放策略或并发数，避免热点



 4
gogo

2018-12-11

1.批量发送数据
2.压缩传输数据
3.增加带宽

还有咩？

作者回复: √



 3
王亚南

2018-12-11

经常等待IO，可以考虑使用异步非阻塞IO模型，集体就是建立IO池，从多个链接读入数据，供系统处理。



 2
Oliver

2018-12-11

看到问题后先思考了一下，发现和大家的思路比较一致，分两点看
1、网卡打满
    1）能否拆分业务执行时间点，因为是性能测试，pass
    2）优化业务逻辑
    3）能否批量发送
    4）升级网络硬件
2、系统等待
    1）同步IO改为IO多路复用或异步IO

展开



 1
老男孩

2018-12-11

因为我对 hadoop,spark也是跟随专栏在学习。不知道计算过程中节点之间通信是一种什么方式？是否可以采用netty这样的网络框架，因为netty的数据读写都是在bytebuf中进行的。而且我们可以自定义channelHandler在数据出站入站的时候编解码，压缩解压。

作者回复: √

 1

 1
旭

2018-12-11

请问文中的几个性能测试的图怎么快速生成呢？

作者回复: 这个模块最后一期专门讲这个测试工具的设计开发



 1
足迹

2018-12-11

硬件上可以升级网卡，比如百兆升级到千兆；
软件上看看是否可以新的版本可以解决；
逻辑上最关键，尽量做到数据本地性，能本地算好的一定不传输到其他节点。

作者回复: √



 1
Jun

2020-01-04

关于网卡问题，从硬件角度可以升级带宽和增加网卡。从操作系统角度可以调节网络相关参数。从数据角度可以考虑数据本地性，即让计算节点尽量计算本地或者最近节点上的数据。还有就是reduce可以在做map的节点上先做，传输中间结果到reduce节点上汇总。这样可以减少网络传输




吕宗霖

2019-09-02

Doris不是百度的Palo么？




iK_Leehom

2019-05-07

网卡可以比作一条水管，可以从两个角度出发，要么减少水量，要么增加水管




张云翔

2019-02-07

针对业务进行分析尽量不使用shuffle算子减少网络开销




Levin

2019-02-03

明早是用尽了网卡的能力了，也就是网络瓶颈。
两个方面，
第一，提高网卡的能力，换个方式就是更换更强劲的网卡。
第二，减少程序对网络的请求的压力，具体为频率和数据量。频率可以通过类似程序限流，数据量可以通过调整传输数据格式，协议，达到更小传输，这包括压缩数据，使用简化编码等方式传输更少的数据




小老鼠

2019-01-17

压缩传输或者更换高质量网卡




修行者

2018-12-13

我第一想法，首先是带宽是否不够




John

2018-12-11

李老师，我想请教下，Impala 和 Hive 的应用场景区别，换句话，就是什么时候用 Impala 比 Hive 有优势？谢谢

作者回复: 后面大数据基准测试一期专栏会讨论



