TCP 是最基础的网络传输层通信协议，其拥塞控制算法是为 Internet 这种相对低速、高延迟的网络环境设计的。在新一代的高速云网络中，TCP 的拥塞控制算法无法充分发挥底层网络能力，而现有高速网络拥塞控制算法又存在严重的稳定性风险。阿里巴巴的技术人员研发了新一代高速云网络拥塞控制协议 HPCC （High Precision Congestion Control），旨在同时实现高速云网络的极致性能和超高稳定性。目前这一成果已被计算机网络方向世界顶级学术会议 ACM SIGCOMM 2019 收录，引起了国内外广泛关注。
近日，InfoQ 对 HPCC 团队成员阿里云智能研究员张铭进行了专访，探究 HPCC 的研发背景及实际意义。
随着云计算的迅猛发展，传统 PC 时代的小型机房的网络架构已逐渐退出历史舞台，取而代之的是以数据中心为核心的超大规模、云网络架构。在这样的环境下，目前主流的 TCP 和 RDMA 拥塞控制算法要么无法充分发挥云网络低延时、高带宽的优势，要么无法在大规模网络环境下保持稳定。这给包括阿里巴巴在内的大型云计算服务商们带来了严峻的运营和技术挑战。
HPCC 是在高性能的云网络环境下，对现有的拥塞控制的一种替代方案。它可以让数据中心网络中的报文稳定的、以微秒级的延迟传输。当前主流的拥塞控制算法主要依赖于端的信息，以及极为有限的设备反馈信息做拥塞控制，而 HPCC 则创新性地运用了最新网络设备提供的细粒度负载信息而全新设计了拥塞控制算法。在 HPCC 的帮助下，主流的云应用，比如分布式存储、大规模机器学习，高性能计算等性能会得到几倍到几十倍不等的提升，云租户相应地将会感受到延迟显著降低，效率和性价比大幅提升。
无论是 TCP、RDMA 还是其各种改进版本，其核心都在围绕拥塞控制算法进行，这也是高性能云网络中必须解决的痛点，而 HPCC 的核心就是重新定义下一代拥塞控制机制。张铭表示，HPCC 的思路和框架同样可以用于改进 TCP 或者 RDMA 等其他传输层协议。
在计算机网络里，传统的拥塞控制算法主要通过在端上调节流量，以维持网络最佳平衡状态。发送方根据网络承载情况控制发送速率，以获取高性能并避免拥塞崩溃（congestion collapse）导致网络性能下降几个数量级，并在多个数据流之间产生近似最大化最小流的公平分配。发送方与接收方确认包、包丢失以及定时器情况，估计网络拥塞状态，从而调节数据流的发送速率，这被称为网络拥塞控制。
HPCC 的核心理念是利用精确链路负载信息直接计算合适的发送速率，而不是像现有的 TCP 和 RDMA 拥塞控制算法那样迭代探索合适的速率，HPCC 速率更新由数据包的 ACK 驱动，而不是像 DCQCN 那样靠定时器驱动。
虽然真正实现 HPCC 的大规模、商业化落地还需要一段时间，但阿里内部已经在模拟真实网络的实验环境下进行了多方面验证，其效果与设想高度一致。
HPCC 在拥塞条件下可以将延迟降低一到两个数量级，且收敛速度极快，一旦出现空闲带宽，立刻会被充分利用，整体网络利用率维持在相当高的水平，而延迟则接近于理想值。张铭强调，在无拥塞的情况下，数据流的传输速度都很快，而一旦发生拥塞，受影响的数据流从不稳定状态恢复到稳定状态的时间需要越短越好，HPCC 的收敛速度和稳定性都要远优于目前的主流算法。
张铭谈道，HPCC 的出现为下一代拥塞控制开拓了一个全新的方向，无论是 TCP, 还是 RDMA，抑或是某种新的传输层协议，都可以直接使用 HPCC，或是在其基础上构建适用于高性能云网络的拥塞控制机制。
对云上租户而言，HPCC 的价值在于可以让其享受高速的网络服务，而不需要担心稳定性问题，网络资源利用率提升的同时会带来云使用成本的降低，而对性能要求极高的用户, 则更是至关重要。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

该免费文章来自《极客视点》，如需阅读全部文章，
请先领取课程

免费领取

登录后留言

全部留言(1)

最新
精选

有风的林子
貌似要借助于最新的设备能力，并不通用。可能适合数据机房内部或专有网络

3

收起评论



显示
设置



留言





沉浸
阅读





手机端



快捷键



回顶部