華為:做數據中心交換機到底有多難?
1.做還是不做
數據中心交換機真正進入人們的視野,還是2010年。
那一年云計算持續升溫,數據中心迎來了大發展,人們發現,一個新的80/20原則誕生了——80%的流量產生在數據中心內部。
也正是從那時起,“東西流量”在業界被廣泛提及,數據中心交換機作為處理“東西流量”的神器,引領了整個交換機產業的新一輪增長。
當時的華為,已是運營商網絡市場的龍頭,正在蓄勢進軍企業網市場。
要想在企業網市場站穩腳跟,首先就是要占據企業數據中心這個戰略高地,而數據中心交換機無疑是攻占這個高地的利器。
轉過年來的2011年,華為迎來了一次重大的組織變革,EBG,一個專攻企業級市場的BG成立了,成立之初,管理層便一錘定音:上馬數據中心交換機!
2011年4月,華為數據中心交換機正式立項,起個什么樣的名字呢?CloudEngine。這個名字包含了兩層意思:
①數據中心交換機主要是面向云的,華為要做最好的云網絡引擎。
②與華為大名鼎鼎的NE路由器一脈相承,左手NetEngine,右手CloudEngine,包打天下。
現在看來,“CloudEngine”這個經典產品能在最恰當的時機立項,既有技術大趨勢發展的因素,又有華為內部業務戰略的驅動。
總之,外因+內因,就這么踩準了一個點,翻過了一道坎。
2.走什么路線呢
大方向定下了,只是萬里長征的第一步。
彼時不同今日,7年前,業界對與數據中心網絡的技術路線,存在很多爭議。最主要的有兩大流派:穩健型的“二層派”和顛覆型的“一層派”。
“二層派”的思路是在傳統網絡架構上進行優化,核心交換機和接入交換機具備獨立功能,Spine+Leaf的模式來組網,基于通用的標準協議實現互聯互通。
“一層派”的玩法比較激進,裁剪接入交換機的功能,只把它們作為“端口擴展器”,這種“子交換機”不能獨立工作,需要一臺功能強悍的“母交換機”來配合。“子母”交換機組合起來,變成一臺超級交換機,這就是當年很火的“一層架構”。
面對這種“0或1”的選擇,華為交換機項目組經歷了痛苦的抉擇期,一旦架構選錯,未來根本就沒有機會回頭。
當年,“一層派”在業界呼聲很高,方案很完美,看起來很有創新性,還有交換機大廠扛旗力挺,芯片廠商和部分客戶,也對這種方案很心動。
然而,華為研發經過評估認為,“一層派”這個方案看上去很美,但是意味著“子母”交換機只能使用同一家廠商的方案,這個結構不夠開放,會對客戶形成綁架。從網絡發展的歷史看,這不大可能成為主流。
最終,華為選擇了“二層”架構,保持系統的開放性,給客戶選擇權。當然,華為還是留了一手,在架構設計上做了兼容考慮,即便未來“一層”成為主流,華為也能平滑演進。
多年以后,幾乎所有的廠商最終都和華為選擇了一樣的路線,而那種曾經火爆一時的“子母交換機”,早已絕跡江湖。
這種所謂的架構之爭,現在已經沒有什么爭議了,而在當年,對華為交換機團隊來說,就是“大是大非”問題。
面對這樣的抉擇,華為的解決思路是,跳出具體的技術比較,從客戶角度思考,把選擇權留給客戶,把麻煩留給自己。
事實證明,這種“以客戶為中心”的思想,很有效。
3.選什么架構
在數據中心交換機的硬件設計上,有一道繞不開的坎,叫做“正交架構”。
我們知道,交換機的板卡,主要分為三大類:主控卡、線卡、交換網板。主控卡相當于交換機的大腦,線卡主要提供各種不同速率的端口,而交換網板則提供線卡間高速互聯的能力。
如何把這三種板卡“物理的”連在一起呢?需要一個載體,這就是背板,在“正交架構”出現之前,主流的架構是“無源背板”技術。
“扒開”這種交換機瞧一瞧,我們會發現,各種卡都是插在背板上的,大家通過背板這個“中介”,完成彼此的連接和互通。
這種架構是過去的主流,但隨著數據中心交換機對速率和擴展性的要求越來越高,弊端就表現出來:要想實現超高速的數據傳輸,鏈路要盡可能短,盡量減少中間路徑,故障點越少越好。
如果能不繞道長長的背板,而是讓線卡和交換網板直接連接,就可以最大限度避免瓶頸。于是,就有了劃時代的正交架構↓
拿CE12800舉例,所謂正交架構,就是前面的線卡和主控卡橫著插,背面的交換網板豎著插,兩者相互垂直,板卡相交的地方采用“正交連接器”直接相連,不再通過“漫長”而“坎坷”的背板走線。
這種方式,距離更短、故障點更少,能夠搭建起超高速通信的“立交橋”。
對應正交架構,業界還有“非正交”和“偽正交”:
傳統無源背板架構,所有的板卡,都插在背板上,通過無源銅背板上的走線完成“中介”,更早的時候,還有“有源背板”,即背板上也有芯片,故障率更高,擴展性更差。
偽正交架構,從外面看起來,和正交架構很“高仿”,也是前面橫插(豎插),后面豎插(橫插) ,前后板卡垂直相交⊥。
然鵝,真相是,他們共同插在一個中置大背板上,而不是采用“正交連接器”直接相連,所以,該繞的路,一點都沒有少。
華為CE12800在設計之初,就考慮了一步到位的正交Clos架構,這個架構一直沿用至今,保持了高度的延續性,一套板卡適用于所有規格的機箱。
用戶即使在2012年產品發布之初就買入了交換機,用到2019年的今天,所有線卡任然保持通用,交換容量仍然可以平滑升級,與時俱進。
這個時候,我們才能更深的理解,設計一款具備真正“十年生命周期”的產品,是對自己的挑戰,也對客戶負責任……
今天,我們再去看整個數據中心交換機市場,會發現主流品牌,基本都“正交”了,但他們大部分都經過了幾次“迭代”,出現過好幾代機箱,從非正交→偽正交→真正交。這些機箱命名相似而不相同,線卡彼此不兼容,既造成用戶選擇困難,又不利于投資保護。
真正做到正交架構一步到位的,似乎只有華為。
因為,在當年,要做成一款正交架構的交換機,是對工程能力的巨大挑戰:例如關鍵器件“正交連接器”的成熟度、正交架構對散熱的考驗、大尺寸單板的設計和加工能力、整機及結構精度控制等等。
說白了,正交架構體現出各廠家研發能力的積累,它就像一個“放大鏡”,能充分展現優秀設計的精妙之處,也能把低劣的設計放大數倍揭露出來。
4.散熱???
邁過“正交架構”這道坎,似乎前面一片坦途。
然而,接下來的每個“細枝末節”,都暗藏玄機。
正交架構的后遺癥之一是散熱問題,交換機散熱主要依靠“風冷”,從流體力學的角度看,正交架構不容易實現冷熱風道隔離,對散熱很不友好。
CE12800在早期架構設計的時候,架構師們仔細研究了國際標準組織對設備散熱的定義、要求及未來展望,并參觀了業界最先進的數據中心,做了多種設計模型不斷的對比和優化,最后決定面向未來把CE12800設計成“嚴格前后風道”架構。
以前,我們常常把交換機“前后風道設計”當成一種控標參數來運用,實際上,無論從行業標準要求還是數據中心的對“能效比”的追求,“前后風道”都是剛需。
在高等級的數據中心機房,為了追求PUE指標,會采用機柜“面對面、背靠背”交錯排列,形成隔離的冷熱通道,這樣可以形成較強的冷熱對流循環,所以,設備采用前后風道設計,才能達到這種對流效果。
4.顏值要在線
作為一款“潛伏”在機房深處的設備,數據中心交換機有點“深藏功與名”,到底要不要重視顏值呢?
華為的工程師們陷入了激烈的思想斗爭:以前產品強調的是功能、性能規格,外觀上“抗造”就好,本質上就是一“鐵疙瘩”,大家也都司空見慣。相對而言,企業網客戶對產品的外觀和質感會更加關注,“高顏值”的產品更容易贏得客戶信任。
這個方針敲定以后,團隊加大了工業設計投入,邀請知名的設計公司操刀,第一次從零開始討論產品的眉頭、走線齒、扳手、防塵門以及總體外觀,關注每一個細節……
在設計板卡面板時,為增強產品質感,采用了更高成本的不銹鋼。 但測試時發現,面板在人觸摸后會留下指紋,可能影響觀感,雖然這不影響使用,畢竟用戶也不會天天跑到機房摸面板玩。
但是負責工業設計小伙兒不甘心,驗證了多個方案,最終確保設備面板在人手觸摸、插拔應用后,依然油光锃亮,“可以當鏡子用”。
正是因為這種精益求精的精神,CE12800一發布,就引起了轟動,很多用戶不光被強悍的性能和規格震撼,也被高顏值圈了粉。
硬件的坎,就這樣,一道道被華為人趟完了,但這只是一半。
硬件,只決定交換機的下限,它讓交換機有了一副好皮囊,一副10年不落伍的好皮囊;軟件,才定義了交換機的上限,它賦予了交換機靈魂。
于是,接下來,華為人又趟過一道道軟件坎,實現了多個業內第一:
業界首個實現集群的業務通道和控制通道物理分離,可靠性更高;
業界首個將“1虛多”虛擬比實現到16的數據中心交換機;
業界首個在同一平臺實現CSS集群和M-LAG技術的完美組合;
擁有歸一化軟件平臺,使得一套板卡可以支持所有軟件特性;
……
2012年6月,在邁過無數道坎之后,凝聚著華為VRP平臺、硬件和整機工程20余年深厚積累的數據中心交換機旗艦——CloudEngine12800,終于震撼發布。
時至2019年
我想,當年CE12800交換機的研發項目組,在殫精竭慮、埋頭攻關的時候,一定許過愿、吹過牛,憧憬過自己這款親手打磨的產品,未來能到什么樣的高度。
七年后,那些許過的愿、吹過NB,都成了真……,我們來看看成績單吧。
CE12800創造了一個神話:七年前奠定的體系架構,其間未再做任何硬件迭代,延用至今,仍然是業界最具競爭力的交換機旗艦。這塊“金字招牌”,還可以掛上幾年。
然而,華為人不滿足,七年之癢,華為人“癢了”,他們的目光,瞄準了下個10年。
隨著人工智能和機器學習等應用的涌現,存儲(存儲介質從HDD到SDD/NVMe)和計算(CPU到GPU甚至AI芯片)性能都得到了百倍提升,數據中心網絡也需要更大帶寬和效率支撐AI業務。
400GE光接口已經開始踏上數據中心交換機的舞臺,隨之而來的,則是在功耗密度、高速互聯、硬件可靠性等方面的技術挑戰。
你的網絡準備好了嗎?
曾經,CE12800重新定義了云時代的交換機,而現在,華為數據中心交換機已經完成新的關鍵技術突破和準備。
所有過往,皆為序章。