行业知识
云网络的变革:从AWS和Facebook故障谈起
Mar.09.2026
在去年国庆假期,一场Facebook的网络故障引发了大家对BGP的关注,紧接着年末AWS的网络故障进一步推动了对云服务网络稳定性的重要讨论。与此同时,国内的技术发展似乎在某些方面停滞不前,部分企业仍在进行BGP的魔改,或是转向SDWAN等其他技术,而对操控平面的革新却显得缺乏动力。 不少云服务商在操控协议的设计上或许有一些尝试,但与国外的技术领先相比仍略显不足。例如,国际上有大型科技公司推出的OpenR、Orion和Sonic等操控平面解决方案,而国内云服务提供商在这方面的进展似乎不尽人意。随着AWS开始重构自身的操控平面,这一话题再次引发了深思。 在和一位领导的探讨中,思路逐渐清晰为何类似“Ruta”的项目未能在早十年或二十年前就被提出。回顾历史,二十年前MPLS刚刚起步时,因带宽的紧张,源路由的概念并未被广泛接受。十年前出现的基于目的路由的SDN操控,如OpenFlow,面临全网一致性的问题,而针对新协议定制开发硬件芯片也成了一大挑战。在这一背景下,随着分布式数据库技术的成熟和云原生架构的实践,才为如今的网络项目提供了可能的土壤。 一个成功的架构师的价值在于能在合适的时机,运用恰当的工具解决现实问题。关于技术的选用,争论虽然存在,但某些技术在适当的场合下能发挥实用价值。任何技术都可能随着新的方法而被取代,因而在面对技术选择时,需要以结果为导向。 从学术视角来看,流数据处理中的时间概念引发了不少讨论,处理时间、注入时间和事件时间的选择干扰了人们的思维。尽管技术如Google的Swift对时间处理提出了难题,关键在于如何消除时间维度的抖动。现代框架如Flink或Google DataFlow提升性能的核心在于对数据的排序和窗口的管理,容忍一定程度的乱序,并引入水印机制以实现准确语义的处理。 在通信协议的发展中,早期的TCP协议尝试模仿图灵的理论,但工业界普遍采取滑动窗口机制定义拥塞控制。滑动的应该是数据而非窗口,窗口的设计旨在提高通信效率。通过对通信语义的深入理解,我们得以认识到半格代数结构的重要性,而这一结构能够让内存操作更为高效。 内存的分布可以被视作一个偏序集,其上的操作若满足可交换、幂等性和半群的约束,自然具备了良好的代数性质。消息在这其中扮演着关键角色,合理的内存读写操作需将消息的语义与地址绑定,从而实现更高效的通信。 通过这样的反思,发现引入半格结构不仅有助于提升通信和计算的效率,也类似于当年大数据时代引入的map-reduce概念。透过这些探讨,可以看到技术发展的脉络和未来可能的方向。 最近进行的NetDAM BRAM延迟测试显示,经过交换机打时间戳后发现,NetDAM裸卡的延迟约为430纳秒,且抖动几乎为零。这一成果体现了权衡通信效率与技术实现的可能性,也为高效的数据处理提供了基础。
  • 信赖
    华为首选MSP
  • 专业
    多对一定制
  • 无忧
    专属工程师服务
  • 标准化
    一站式实施服务
  • 智能化
    智能AI运维
  • 可视化
    7x24小时监控中心