让网络维护更简单、更稳定!

SDWAN下半场:与恐龙同行

2019-04-03 14:34:37

  在2019年3月30日由SDNLAB举办的“2019 SD-WAN应用研讨会”上,我作为客串嘉宾进行了简短的发言。下面将发言稿整理为文字,以庆祝全球人民的传统节日,愚人节。


  

  我是北京邮电大学的李昕,我今天演讲的题目是“SDWAN下半场:与恐龙同行”。前面的嘉宾都是讲具体的技术,从上午Intel和运营商的方案开始,到今天下午很多初创公司的方案。我觉得大家听完这些方案可能会产生一个疑惑,SD-WAN到底是什么?包括去年SDWAN大会,演讲的人和参加的人都非常多,但是最终这个疑问并没有解决,大家觉得演讲嘉宾的内容虽然很丰富,但是回答不了这个问题,到底什么是SDWAN。今天我讲的内容不太偏技术,为什么叫与恐龙同行呢?因为大概在两年前实际上SDWAN市场是初创公司的天下,大的运营商和互联网巨头对这个市场都不太重视。但是从去年开始,大家伙们突然对这个市场发力,表现出了巨大的热情。在这种情况下小公司怎么样和大公司同场竞技,怎么样选择自己的赛道,这就变得非常重要。

  现在最热门的技术应该是人工智能、5G和工业互联网,SD-WAN其实不是一个热门的技术,或者说在大学里面如果让学生选择专业,一定会选择这三样当中的一样,不会选择SDWAN,为什么还有这么多人在关注SDWAN?


  

  我们回到最初的问题,到底什么是SDWAN,我觉得可以做一个比喻。比如说病人去看病,跟大夫说我最近上火,他其实不知道上火到底是什么意思,但是他知道上火代表着某种症状,医生其实也不知道他说的上火具体是指什么,但是医生大致能判断出来病人在说什么,于是医生问你到底是哪里上火,病人说我哪哪都上火,医生说那你就多喝点开水好了。


  

  在SDWAN这个领域,我觉得各个公司的市场销售会遇到类似的情况,用户会越来越多地问:你有SDWAN吗?虽然用户也搞不清楚什么是SDWAN,但是当他说这句话的时候你基本上就能猜个八九不离十,你会回答他你什么都有,SDWAN的功能组成是无所不包的。这样你会发现一个问题,各个公司的产品组合,除了公司名称和LOGO不一样,其他的好像没什么区别。

  首先我们来讨论一下什么是SDN?如果就是指集中控制,那在过去二十年当中出现过大量的集中控制的技术,而且特别的成熟。比如说电信网本身就是集中控制的,还有ATM等等都是,如果SDN就是集中控制,那这些技术是不是SDN呢?如果集中控制就是SDN,那翻墙VPN、合法VPN是不是就是SD-WAN呢?如果这些都是,那到底什么是SDWAN,就非常难回答。


  

  已经有标准化机构从技术层面对SD-WAN进行解释,并且归纳出一些特性。但是这些解释并不能回答大家的疑问。


  

      还有一个问题就是这个领域聚集了这么多的公司,是因为SDWAN非常值钱吗?Gartner预计到2020年,SD-WAN设备销售额将达到12.4亿美元。IDC预计2021年全球SD-WAN市场规模将达到80.5亿美元。

  这些数字可能不太只管,我们用老干妈辣酱来做个比较。老干妈辣酱2017年的营业额是45.49亿人民币,折成美元大概6.75亿。这样2020年SD-WAN设备销售额勉强能凑够两瓶老干妈,而2021年SD-WAN市场规模正好是一打老干妈。


  

  在互联网上每隔十年左右就会出现一次技术的重大变化,这倒并不是因为新的技术有多厉害,更多是时势造英雄。SDWAN和SDN的出现背后有很多的推动力量。我们在定义SDWAN之前不妨先思考几个别的问题。为什么云计算会突然崛起?为什么SDN会突然被接受?为什么运营商始终在徘徊?虽然运营商很早就表现出极大的热情,但实际上一直并没有大的动作。为什么投资人始终在迷惑?投资公司始终看不懂这些人到底在干吗。如果2021年总共才值一打老干妈,这个市场没什么好投的。我觉得这背后是应用和网络之间的关系在发生微妙的变化,以前的平衡被打破了,现在需要进入新的平衡,在短暂的动荡期间产生了机会。网络基础设施过去一直是一个差不多先生,他不对QoS做任何的承诺,但是现在越来越多的应用开始对QoS有非常苛刻的要求,这时候中间就出现一个落差,网络提供的服务和应用要求的QoS之间出现了裂痕,而这个裂痕仅仅靠应用程序自己优化并不能弥补。这就是SDWAN产生的基础。我觉得SDWAN最近这几年的发展可以分成三个阶段,第一个阶段大家都在炒概念,概念满天飞,谁也说服不了谁,谁也听不懂其他人在说什么,就像圣经故事里说的巴别塔,结果就是先让子弹飞一会。2016年大家突然发现资源是SDWAN里面最值钱的东西,谁手里有稀缺传输资源谁就相当于家里有矿。但是到了2019年运营商开始用巨量资源冲击原有赛道,SDWAN开始全面向服务转化。


  

      在资源为王的2.0阶段,应用层和网络之间的主要矛盾是带宽不足。在这种情况下,首先挖出第一桶金的TCP加速技术,APPEX是最有名的玩家,这是抢应急车道的艺术。但是很快又发现在很多地方压根就没有应急车道,而且路非常窄,即使是独占也跑不快。这时候又发现另外一个问题,互联网并不是真正互联互通的,还有很多数字鸿沟。这个发现跟大量的中国企业出海有关系,出去了才知道整个互联网并不是像大家想象的那样完美,它还是支离破碎的网络。

  这时候能找到一条合适的传输线路,远远比做技术更有竞争力。找到一条优质的传输线路胜过雇佣一打资深网工和码农。


  

  这是2.0时代,你会发现全球的大小公司都在干填补数字鸿沟的事,比如谷歌气球和脸书无人机做落后地区的网络覆盖,同时各大互联网公司都在加大全球数据中心和传输资源方面的投入。但是对于国内公司来说,最大的推动力来自“一带一路”。


  

  “一带一路”战略正在把国内的资源向这个区域引导,网络资源也就开始向这个区域流动。后来发生的事情就是中国移动和中国电信开始建自己的政企专网,中国电信大规模建设覆盖中南半岛的光缆网、进军菲律宾。在这之前很多SDWAN公司利用信息不对称以及当地传输资源的稀缺性获取高额利润,但是巨头进场以后,你会发现在国内政企专线今年可能会突然变得特别便宜,继续靠成本优势和大运营商对抗在国内玩不动了。而在“一带一路”地区的的关键地点,比如大的工业园区,聚集了大量的中国企业,这些地方以后会越来越变成大运营商的天下。

  这个趋势对于SD-WAN来说意味着什么,航母编队出现之后小船该怎么办?恐龙正在进场,赛道格局变了。这个时候SD-WAN2.0终结者进场,再靠一条线吃遍天的时代已经结束了。


  

       有句俗话说得好,卖专线原本是可以赚钱的,后来做的人多了也就不赚钱了,慢慢地变成为人民服务了。

  SDWAN3.0时代我觉得是全球服务的时代,这个全球服务背后有一个特别大的背景,我们在此前考虑整个经济环境以及商业环境的时候都是立足于国内市场,并没有真正站在全球化的角度看待这个问题,现在越来越多的企业开始把出海作为主业或者新的增长点,所以这个时候就出现了一个巨大的机会。也就是如果站在国内来看整个市场是饱和的,在任何一个行业你都发现挣钱非常困难,但是如果放在全球市场,你会发现在中国真正意义上的跨国公司可能两只手就能数过来,这其中最成功的跨国公司就包括我们的华为。这时候其实就相当于在整个海外市场中国企业面临一个完全空白的状态。

  这时候就需要关心另外一个问题,当整个的经济发展的重心开始向海外倾斜的时候,SDWAN应该是以服务为中心还是以网络为中心?一般用户会认为带宽越大服务质量越好,但他并不知道带宽和服务质量之间是什么关系。另外就是技术更新恐惧症,技术越新服务越好,这是很多用户的执念,逼着你一定要跟他讲你有一大堆最新的技术。


  

  前段时间任正非在接受BBC专访的时候谈到了5G的问题,他认为实际上问题的根源不是技术不够新,更多的是因为我们没有把已有的技术用好,没有把现有的资源充分挖掘出来。同样道理,服务和带宽是不能等价的,没有把技术用好和技术不好也根本不是一码事。

  从这个角度再去看整个互联网的历史,你会发现每一个时代非常耀眼的明星技术都是妥协的技术,他们都是能够把原有的资源充分挖掘的技术,而不是上来就要颠覆谁打倒谁。


  

  第二个问题就是一个产业的出现其实需要大量的因素共同作用,比如说1977年是互联网元年,虽然一直到了1983年TCP/IP才正式成为标准在全网部署,但是1977年异构网络互联互通这事解决了,运营级别的光纤网络也出现了,更重要的是真正意义上的个人电脑APPLE-Ⅱ也是在这一年推出的。从这个时候开始互联网才具备形成雏形的各种要素。


       

       对于SDWAN来说也需要很多前提条件作为基础,并不仅仅是因为技术怎么厉害。这些条件包括,整个市场上的网络和计算、存储等等资源供给量出现了极大的提升,尤其是传输资源的供给量提升到前所未有的水平,但是另一方面资源整合的程度也提高到了不敢想象的地步。还有就是资源调度的颗粒度变得越来越细,甚至按分钟和实际流量来计费,这是技术条件。非技术条件就是市场在发生变化,传统市场开始饱和,传统巨头的策略趋于保守,如果你观察一下国内互联网巨头在最近几年里的所有大动作,会发现主要是防守型不是攻击型的。比如你会发现不管是阿里还是腾讯,它们在海外的数据中心部署的规模以及提供的服务,其实都和国内的不能相比。这就给新兴的企业创造了很大的空间。


  

  SD-WAN实际上是一个腰部的技术,它要面对客户个性化的要求,同时调动各种各样的资源和服务,在腰部这个位置上必须上面和下面的条件同时具备,腰部才会产生价值。当年的TCP/IP就是这样,必须把龙珠凑齐才能召唤互联网这条神龙。


  

       举个简单的例子,无论是带宽资源,还是计算资源、服务资源,都是标准件,SD-WAN则是把标准件打造成瑞士手表卖给客户,这是SDWAN的价值。

  有一个比较直观的比喻能够说清楚SDWAN和WAN之间的区别,SDWAN就像航空公司,是为人服务的,要对乘客的体验负全面责任。而WAN就像发动机,只要发动机不出故障就成功了,不需要考虑乘客舒不舒服。二者处在完全不同的层面,基因是完全不一样的。就像湾流、庞巴迪这样的公务机制造商和波音、空客这样的大型飞机制造商其实井水不犯河水,但是公务机的制造商离不开大型飞机制造商所产出的技术和人才,这就是是SDWAN和WAN之间的关系。到底什么是SD-WAN呢?我觉得SD-WAN就是披着网络技术外衣的服务。


  

       SD-WAN服务是以用户需求为中心,调度一切可以调度的资源。这张图上是一个食物链的图,能比较清楚的说明SD-WAN是什么,SD-WAN是站在食物链的顶层,但是这个位置竞争很激烈,不太好站稳。


  

       如果简单地对SDWAN进行分类,可以从服务于谁以及调度的资源来自哪里做一个简单的分层,但是这个分层是动态的会跟随整个网络的发展持续演化。


  

      最近几年关于什么是基础设施这个概念转变得非常迅速,先前认为公有云不是基础设施,应该属于应用和服务,但是现在发现公有云变成了它当年鄙视的沐阳。基础设施就像我们脚下的底层,一层层的堆积,任何设施只要规模化就会迅速变成基础设施,被别人OTT掉,包括现在的人工智能,总有一天它也会变成基础设施。这是巨头的宿命。但是无论怎样演化,一切的基础设施都要服务于人的智慧,促进人的智慧和创造力的流动。


  

      阿里在前段时间的大会上展示过一张四级火箭的幻灯片,其中有一条是阿里的生态是被集成的云,因为阿里云很清楚规模到了一定的程度以后其实不太适合做个性化服务和产品。


  

       这时候恐龙进场并不可怕,我们变成训龙高手就可以了。但是训龙高手需要具备两个能力,第一个就是OTT的艺术,你训马的时候是像美国西部牛仔那样把马折腾得上蹿下跳最后费了半天力气还是在原地扑腾,还是像经验老道的赛马选手那样人马合一高速前进。第二个就是网络测绘能力,这是被长期忽略的问题。


  

      关于OTT的艺术谷歌其实是非常好的例子,谷歌在过去的这些年当中,它发布所有的新技术虽然涵盖了传输层和网络层,但是你会发现所有技术有个共同的特点,就是都以不触动运营商的利益为出发点,不管是它的B4、ESPRESSO,还是BBR、QUIC,都是尽可能不去刺激底层运营商的网络,保持底层网络输出持续和稳定的预期,这就是非常高超的OTT的艺术。


  

       而另外一个现在运营商广泛接受的Segment Routing,它为什么会成功?我认为这要归功于它在网络上有个立足点MPLS,而且这个立足点本来就存在,这让它的部署成本非常低。很多公司在谈到自己SD-WAN方案的时候,会特别强调他能做这个能做那个啥都能,但是他没有讲这个方案的部署成本有多大,对于任何用户来说接纳新技术的首先要考虑其实是成本,他还没有挣到钱就先要为了你这个SDWAN花一大笔钱做个大手术,怎么可能嘛。


  

  第二个问题为什么需要全球网络测绘?因为测绘是一切智能控制的基础,比如说自动驾驶,自动驾驶里面最核心的部分其实是对地图的标注,以及对地理信息的搜集,如果没有这些东西,仅仅依靠自动驾驶车辆自带的传感器,很难做到自动驾驶。而这些工作其实都是隐藏在各种智能背后的基础性工作。

  现在实际上海外的网络资源已经非常丰富了,这时候我们面临的问题不再是以前那种我要传输什么东西租一根专线,这些资源全部因为公有云的普及而变成一个大池子,当我可以从这个池子里面获取任何我想获取的东西的时候,我怎么知道我需要的东西到底在哪,如果这个饭店只有十道菜客户点菜就很容易,但是如果这个饭店的菜谱像辞海那么厚客户就很难选择。

  在海外的环境下,传统的云网保障模式面临很大的挑战,在资源没有池化的时候,你必须先把自己的池子弄起来,不管你要一毫升还是一万吨,都逃不出先建网再用网的固定套路。但是当全球网络和计算资源充分池化之后,这个时候主要的问题就变成了怎么拿到准确的资源地图以及路况信息,否则任何控制都会面临巨大的风险。但是我们看到几乎所有的SDWAN架构里面都在大量的讨论控制平面和数据平面,唯独没有管理平面。我们回到常识上面来,一个控制器或者控制应用在做决策的时候其实是依靠一个数学模型,这个模型能不能做出最好的决策,不是取决于这个模型是否复杂和聪明,而是取决于输入的数据是否足够精确。所以管理平面才是SDWAN系统的核心,管理平面的成本是整个系统的成本中心。比如我们都知道六度分割理论,全世界的任何两个人,要想互相认识,最多经过六个中间人就够了。这听起来很让人激动,但是如果把成本考虑进来,基本上就没有可操作性。比如我和特朗普之间最多经过三个人就能认识,一个人是我一个师弟在美国大学当老师,这个师弟认识他们大学校长,而大学校长认识这个洲的参议员,参议员认识特朗普,但是是不是因为只需要经过这三个人我就可以约特朗普吃饭呢?显然是不可能的,因为这中间的成本太高了。

  我再举个例子,公路交通和地铁运行的管理,以及全国铁路的管理,它的管理模式完全不一样,这个不一样的背后就包括管理平面信息获取能力的差异,包括天气预报,还有这种台风的防灾管理,也是跟信息获取能力有直接关系。管理平面是整个网络里面最重要的部分,包括在运营商的网络里,真正重要的是它的后台的一系列的支撑系统,而前台的地图炮可能是在整个网管系统当中对于管理员来说最不重要的东西。

  另外一个很关键的问题就是在海外的环境里面用户真正需要的是什么,我觉得很大一部分需求是快速部署,灵活部署,按需部署。仅仅依靠静态的资源信息不能提供充足的决策依据,必须依靠资源的动态信息。我觉得以后会有越来越多的原先封闭在黑盒子里的能力被释放出来,变成可以云化的资源。比如说安全能力如果也释放出来,这个时候SDWAN的部署成本就能降低很多,这样SDWAN公司就不需要自己什么都干,大而全小而全,最后没有办法在任何一个领域做到高度专业化和精细化。现在SDWAN的初创公司安全的问题要解决,加速的问题要解决,什么都要解决,活活把自己弄成了瑞士军刀,这种模式会严重阻碍一个公司的成长,因为你必须把各个方面的人都凑奇了,但又都是成本,所以你又不可能花得起钱把各个方面最优秀的人雇来。我觉得按照整个产业的发展规律来说这些应该是高度专业化的公司提供细分领域的服务,而由专门的集成公司来负责选型和组装,以及为用户提供贴身服务,和设备集成商不一样,这是在集成服务,这也是得益于整个基础设施和基础服务的发展,在十年前这是不可想象的。

  服务集成必然要面临一个问题,怎么选择服务,这张图就是美国一体化的防空反导系统,这里面最重要的是“萨德”,而不是爱国者导弹。“萨德”是全时全球监控。对于网络来说也需要7×24小时的全球网络测绘,这样才能给控制平面提供准确的依据。


  

       我们自己开发过一套SDWAN系统,并且部署到了公有云环境下,给学校里的用户提供各种加速服务。但是根据这几年的经验,我们发现控制器根本不是整个SDWAN的核心,即使从零开始临时根据业务的需求组建一张全球部署的SDWAN网络,从选择公有云数据中心、部署虚机和控制节点、转发节点,到最后这张网全部连接好,大概两分半就结束了,基本上就是个胶囊网络,需要的时候把胶囊往外一扔很快就有了。撤掉这张网只需要半分钟就可以结束,这样对于组网建网来说时间成本和整个的运行成本都会变得很低,这个时候到底什么东西是最重要的呢?最重要的是全球精确的测量数据,如果没有精确的测量数据只能租一大堆虚机和带宽资源,用成本堆积去对冲风险,这就没有意义了。


  

  这个是我们正在做的一个全球测绘系统,这个系统是动态的,根据需要增加测量节点,调整测量策略,目前只是收集了几个大的公有云数据中心之间的互联互通质量的原始数据。但即使是收集原始数据,也不是简单PING一下就可以的。最重要的挑战就是测量结果的精确性如何保证,怎么让用户相信他看到的测量数据就是真实的网络状态。现在全球网络其实是个黑盒,我要租用哪个数据中心,怎么去判断这个数据中心到我指定的网络或者其他数据中心连接质量好还是不好呢?或者是用高春辉ipip.net上提供的测量工具,或者临时找个测量工具试一下,但是这些都是短期的测量,而且这些测量本身也会受到网络环境和安全策略的影响,以及各种内部和外部的干扰,比如大量测量同时进行的时候,相互之间也会有干扰。怎么把这些干扰解决,怎么保证我测到的数据一定是真实的网络状态,这件事情是非常复杂的,不是简单的PING、TRACERT可以解决的问题。

  另外一个问题就是测量的终极目的是什么,我认为一切测量的目的都是为了预测,如果仅仅是为了获得历史数据,那么测量是毫无意义的。基于历史的数据怎么样给未来做一个准确的预测,短期预测和长期预测怎么做,这就涉及大量的数据处理和分析,这个就需要运维经验了,像阿里云和百度云的运维工程师会提出一大堆我们以前没有接触到的问题,这是非常宝贵的经验。

  在基础的网络测量之上,我们还要判断这张网络是否能满足各种业务和应用的要求,这就牵扯到应用层的测量,以及怎么把QoE分析出来,这也是一个非常复杂的问题,虽然VOIP已经有比较成熟的MOS模型,但是对于大部分互联网应用来说,根据QoS指标和特征来分析用户体验还处在空白的状态,还要靠堆积资源来对冲风险,但是有些用户体验的问题靠资源解决不了。

  这个是我们的几组测量数据,从这个数据里面有的能看到明显的规律性,但是有些是没有规律性的。当大量的数据表现出这种特性的时候,当然最简单的办法就是我只保留下来一些优质的资源,但是有时候你并没有太多选择,或者人根据自己的眼睛看到的数据很难做出一个准确的判断,这时候就必须依靠对网络状态特征的分析,找到网络的规律性,这样才有可能进行比较靠谱的预测和控制。再比如如果你要投资海外数据中心,当然要找出全球互联网上的洼地来,不能去优质资源聚集的地方打价格战,这也需要全球网络测绘数据作为依据。


  

  前段时间有一个报道,美国国防部在长达二十年的时间里一直资助一个教授做全球海底地形图的测量,为什么要资助他?如果没有全球海底地形图潜艇再先进也去不了几个地方,这就是测绘的价值。现在全球共有云数据中心的数量以及地理覆盖都已经达到了前所未有的水平,整个互联网已经不是以路由器为中心,而是以数据中心为中心,数据中心无形中整合了各个运营商的网络资源,连IX都省了,这就给测绘提供了一个很好的基础,如果在以路由器为中心的时代我们只能在网络边缘靠主机做端到端的测量,虽然可以运用很多技术去推测网络拓扑,但是还远远不可能像现在这样直接钻到网络的肚子里去测绘。当整个互联网的各种资源都能实现云化和池化,并且能实现融合的时候,一个全新的时代就来临了,麦特卡夫定律里说的互联网的价值是接入的节点数量的平方,这个定律对于资源也同样适用,只有所有的资源都被纳入一个资源池的时候,核聚变级别的规模化效应才会产生。到那时候SDWAN的好日子才算是真正到来,这几年还要继续忍耐,继续观察和学习,但是网络测绘的数据是需要靠时间积累的,这个事情等不了。