近期OCS被頻繁提起,美其名曰“光交換機(jī)”,似乎是有幾分要替代當(dāng)前在數(shù)據(jù)中心大量使用的以太電交換機(jī)的意味。
OCS全稱 Optical Circuit switch,光電路交換。等等,電路交換?這不是在通信領(lǐng)域早已經(jīng)被分組交換(Packet Switch)替代了的電路交換機(jī)嗎?這已經(jīng)是上個(gè)世紀(jì)的技術(shù)了,為什么加上個(gè)Optical就成新技術(shù)了呢?
上個(gè)世紀(jì)電路交換機(jī)和接線員(圖片來自網(wǎng)絡(luò))
如電路交換機(jī)相同,OCS提供的也是鏈路級(jí)的連接,只不過前者是電路,后者是光路。這就意味著,OCS在同一時(shí)間只能提供一個(gè)光口到另外一個(gè)光口的點(diǎn)到點(diǎn)連接,只不過這個(gè)連接關(guān)系可以按需動(dòng)態(tài)調(diào)整,不需要接線員姑娘手動(dòng)切換罷了。
說到這里各位小伙伴可能明白了,原來OCS就是自動(dòng)光纖配線架(AODF,Automated Optical Distribution Frame)呀。沒錯(cuò),不管名字怎么變化(某些場(chǎng)景也被稱為OXC,Optical Cross-Connect)、光路切換實(shí)現(xiàn)技術(shù)如何,本質(zhì)上承擔(dān)的角色就是自動(dòng)光配線架。
自動(dòng)配線架和以太交換機(jī)打架,想要替代以太交換機(jī)?關(guān)鍵這兩個(gè)就不是同一類物種,怎么可能同臺(tái)競(jìng)爭(zhēng),這不是關(guān)公戰(zhàn)秦瓊嗎?
這里不妨盤一下OCS的老底。OCS在產(chǎn)業(yè)發(fā)聲,關(guān)鍵的幕后推手是Google。2022年,Google在SIGCOMM22的《Jupiter Evolving: Transforming Google’s Datacenter Network via Optical Circuit Switches and Software-Defined Networking》論文中,提到了在數(shù)據(jù)中心部署OCS/OXC的網(wǎng)絡(luò)方案,一時(shí)間引起了一片熱議之聲。Google作為帶頭大哥用了OCS似乎很有說服力,一幫小弟跟風(fēng)也可以理解。然而,Google使用OCS已經(jīng)多年,為什么業(yè)界到現(xiàn)在還沒有第二家部署呢?
本質(zhì)上還是OCS就是個(gè)升級(jí)版的光配線架,并不是什么交換機(jī)。Google花費(fèi)了那么大的精力把OCS用了起來,還發(fā)了多篇論文,各位小弟仔細(xì)一讀論文,呵呵,你這走的明顯是邪路呀,基于流量調(diào)整通過OCS調(diào)整POD間的光纖數(shù)量,吹那么高大上,最終就是個(gè)這?我們不跟。
Meta甚至還發(fā)了篇論文,大概意思是要用自動(dòng)光配線架,為什么不用機(jī)械自動(dòng)配線架,插損小成本還低(成本這個(gè)是個(gè)玄學(xué),還是看有多少人用),不知道谷大哥看到有什么感想。
于是多年來Google一直孤獨(dú)的作為OCS的唯一用戶,在這條道路上一路狂奔。例如,為了解決OCS帶來的高插損(2dB)和長距離(沒有光電轉(zhuǎn)換,鏈路長度翻番)的問題,Google一直在用高成本的LR 10km模塊,并在業(yè)界呼吁增加FR 2km光模塊插損余量(當(dāng)然大家都不理他);另外還自己投資搞BiDi單纖雙向模塊(區(qū)別于雙纖雙向模塊),就為了減少OCS的端口占用。至于在數(shù)據(jù)中心內(nèi)大量使用的MPO口并纖模塊(500m DR和300m SR),Google更是連想也不用想了。
如果不是AI突然大火,OCS這東西也就停留在Google的Jupiter和其他大廠的實(shí)驗(yàn)室里了。AI這一火,Google又發(fā)篇論文說我的TPU集群用了OCS。這下搞OCS的小伙伴們集體嗨起來了,原來我們這東西可以和AI扯上關(guān)系。AI一加持,就要站上了浪潮之巔了。
但是只要稍微了解TPU架構(gòu)的同學(xué)就一定會(huì)清楚,Google TPU用的是3D Torus互聯(lián)架構(gòu),也就是TPU組成3維的環(huán)網(wǎng),是一種無交換機(jī)的架構(gòu)。在這里面OCS起到的作用就是兩點(diǎn):一、連接對(duì)應(yīng)的TPU端口,組成跨機(jī)柜的Torus;二、部分TPU故障時(shí),繞過故障節(jié)點(diǎn)。這兩點(diǎn)又印證了一個(gè)事實(shí),OCS完全就是一個(gè)自動(dòng)光纖配線架(AODF)。
(Google Torus組網(wǎng),圖片來自于網(wǎng)絡(luò))
除了前面提到的OCS電路交換的本質(zhì)(無法替代分組交換)和插損(限制組網(wǎng)距離,或者大幅提升組網(wǎng)成本)外,OCS宣傳中經(jīng)常強(qiáng)調(diào)自己的切換時(shí)間很快,例如XX毫秒。但是這個(gè)XX毫秒是完全沒有意義的,因?yàn)槊看吻袚Q就是一次光路的斷開重連,其兩端的網(wǎng)絡(luò)設(shè)備從物理層到網(wǎng)絡(luò)層各層都要重新協(xié)商,重新UP,重新及建立路由,這個(gè)時(shí)間都是秒級(jí)的,一定會(huì)造成網(wǎng)絡(luò)中斷。而且,因?yàn)镺CS是一個(gè)電路交換機(jī),需要外部指令告訴OCS如何切換,這一點(diǎn)不像分組交換是報(bào)文自帶路由的,所以根本不可能做快速的切換。因此,業(yè)界使用OCS都是長周期的切換(小時(shí)、天、甚至周),基于長期流量需求做切換,并不需要OCS的快切換能力。
總結(jié)一下,OCS是一種電路交換機(jī),完全不具備替代分組交換機(jī)的可能,本質(zhì)上是一個(gè)AODF自動(dòng)配線架。個(gè)人認(rèn)為,OCS如果要在DCN內(nèi)得到更廣泛的應(yīng)用,應(yīng)該瞄準(zhǔn)幾個(gè)方向:第一、降低插損,當(dāng)前插損太高嚴(yán)重限制了其應(yīng)用場(chǎng)景。第二、降低成本,畢竟AODF對(duì)手是低成本的ODF,加上個(gè)A(自動(dòng)化)有價(jià)值,但不能太貴。第三、支持光纖盲插,AODF的A不應(yīng)該只是自動(dòng)調(diào)纖,如果OCS可以識(shí)別每根光纖具體連接到了哪臺(tái)交換機(jī)的哪個(gè)端口,用戶只需要把光纖盲插到OCS上,然后通過控制OCS就可以完成交換機(jī)間的光纖連接,可能可以大幅提升AODF的價(jià)值。