阿里云揭秘其自研网络技术,如何提升系统可用性与效率
CBINEWS
责任编辑:邹大斌
电脑商情在线
时间:2025-09-02 10:57
阿里云 网络 eBFP 智能网卡
中国互联网巨头阿里巴巴宣布,其自研网络技术已成功将网络中断时间减少92%,七层负载均衡(L7 LB)成本降低18.9%,并通过将工作负载迁移至空闲基础设施,显著提升了智能网卡的性能。
该公司将在下周举行的SIGCOMM大会上公布这些成果。
ZooRoute:秒级故障恢复,中断减少92.71%
网络中断的大幅减少得益于阿里巴巴研发的技术“ZooRoute”。研究人员在论文中将其描述为:“一种快速故障恢复服务,可在数秒内确保大规模云网络中的全局流量绕行。”
论文指出,云服务商的网络难免会发生故障,而传统的快速重路由和流量工程策略可能需要数秒甚至数分钟才能恢复流量,这对于许多用户来说太慢了。
“因此,租户被迫自行开发恢复方案,通常涉及冗余资源或修改协议栈,从而增加了资本和运营支出,”论文中指出。
阿里巴巴声称,其ZooRoute技术通过持续探测可行路径,能够在故障发生时“立即”将流量切换到可用路径。由于ZooRoute已预先知晓备用路径,因此可以尽快完成切换。论文称,阿里云已部署ZooRoute长达18个月,显著提升了网络可靠性,累计中断时间减少了92.71%。
Hermes:利用eBPF优化负载均衡,成本降低18.9%
阿里巴巴云还部署了一款名为Hermes的工具,据称该工具“将每日工作进程挂起减少了99.8%”,并“将七层负载均衡基础设施的单位成本降低了18.9%”。
一篇介绍Hermes的论文解释道,云服务商用于维持网络运行的七层负载均衡器“依赖epoll等I/O事件通知机制,将连接从内核空间分发到用户空间的工作进程”,但这种方法有时会形成瓶颈。
阿里巴巴的解决方案是使用eBPF技术——一种允许程序以与Linux内核进程同等权限运行的技术——来过滤工作进程的请求,识别出需要优先处理的任务,并据此进行智能调度。
论文指出:“Hermes非常适合面临多样化且快速变化流量模式的云七层负载均衡器,因为单一的调度策略无法最优地处理所有租户的工作负载。” 论文报告称,在阿里云的实际生产环境中,Hermes将每个工作进程的CPU利用率和连接数的标准差分别降低了90%和99.4%,将每日平均工作进程挂起次数减少了99.8%,并使七层负载均衡云基础设施的单位成本降低了18.9%。
Nezha:分布式虚拟交换机负载共享,提升智能网卡性能
阿里巴巴的第三篇论文介绍了名为Nezha的分布式虚拟交换机负载共享系统。该系统运行在智能网卡上。智能网卡是一种带有CPU的网络适配器,超大规模数据中心用它来运行网络和存储相关的基础任务,从而释放主机CPU资源,使其专注于运行租户的应用程序。
论文承认,阿里云部分运行在智能网卡上的虚拟交换机已接近性能瓶颈。其解决方案是发现利用率较低的智能网卡,并将工作负载迁移至这些设备。
论文指出:“Nezha的部署成本仅相当于部署新设备所需成本的一小部分”,该系统显著提升了性能,并将性能瓶颈从虚拟交换机转移到了虚拟机内核栈。
关于SIGCOMM大会
SIGCOMM大会将于9月8日在葡萄牙科英布拉(Coimbra)举行。