飛象原創(chuàng)(魏德齡/文)翻看外語(yǔ)辭典,Credo在英語(yǔ)、意大利語(yǔ)和拉丁語(yǔ)中都有“Believe相信”的含義,在意大利語(yǔ)中也可以翻譯為“IBelieve”,在英語(yǔ)中則有著“信條”的含義。如今,擁有了神經(jīng)網(wǎng)絡(luò)的AI大腦憑借其思考的能力,正在讓很多人開始相信它的美麗未來(lái),并讓它開始承擔(dān)起一些專業(yè)領(lǐng)域中的預(yù)見性工作。
在今年的光博會(huì)上,有這樣一家名為Credo的公司,憑借其多年以前對(duì)技術(shù)的長(zhǎng)遠(yuǎn)預(yù)見,為數(shù)據(jù)中心AI大腦“神經(jīng)系統(tǒng)”的升級(jí)帶來(lái)了可能。如果想要細(xì)探這一過(guò)程,需要先從如今AI大腦的飛速進(jìn)化說(shuō)起。
AI大腦的進(jìn)化
相較于生物大腦在歲月長(zhǎng)河中的緩慢成長(zhǎng),AI大模型的成長(zhǎng)可謂是“大力出奇跡”,為了滿足計(jì)算要求,需構(gòu)筑專門用于人工智能的數(shù)據(jù)中心,并由GPU服務(wù)器聯(lián)網(wǎng)構(gòu)成。當(dāng)大模型訓(xùn)練時(shí),并行計(jì)算節(jié)點(diǎn)越多,通信效率越重要,智算網(wǎng)絡(luò)的性能成為了集群算力提升的關(guān)鍵。智力增長(zhǎng)需要更大的服務(wù)器集群,萬(wàn)億參數(shù)的GPT-4背后是萬(wàn)卡級(jí)規(guī)模作為保障。
隨著集群規(guī)模的增加,能耗問(wèn)題也隨之凸顯起來(lái)。也就是說(shuō),如果把人腦與AI進(jìn)行比較的話,人腦由1012個(gè)神經(jīng)元和1015實(shí)觸構(gòu)成極其復(fù)雜網(wǎng)絡(luò),能以很小樣本和30W功耗實(shí)現(xiàn)超高計(jì)算效率和識(shí)別,而大型AI系統(tǒng)則需百萬(wàn)瓦級(jí)功耗和海量數(shù)據(jù)。
為了滿足更加密集的集群需求,數(shù)據(jù)中心的機(jī)架架構(gòu)也在發(fā)生著變化。在AI與AI訓(xùn)練的需求下,現(xiàn)在每一個(gè)數(shù)據(jù)中心都擁有兩種網(wǎng)絡(luò)連接,一種是傳統(tǒng)的前端網(wǎng)絡(luò),還有一種是用于AI網(wǎng)絡(luò)連接的后端網(wǎng)絡(luò)。后端網(wǎng)絡(luò)將所有GPU連接在一起,形同一臺(tái)數(shù)據(jù)中心里的超大計(jì)算機(jī),為了滿足GPU互聯(lián)的需求,后端網(wǎng)絡(luò)的帶寬也是前端網(wǎng)絡(luò)的8-10倍。
針對(duì)密集集群的散熱問(wèn)題,傳統(tǒng)的風(fēng)冷技術(shù)受限于功耗限制,每個(gè)機(jī)架只能放1—2臺(tái)服務(wù)器,顯然已經(jīng)不能滿足要求。液冷方案隨之流行起來(lái)。對(duì)應(yīng)也使單機(jī)架上能夠放置更多臺(tái)AI服務(wù)器,服務(wù)器之間的連接距離變得更短。
上述的這些變化,也對(duì)連接服務(wù)器之間的線纜提出了新的要求。
AEC讓思考不中斷
“我們?cè)趲啄昵暗谝淮谓榻B有源電纜(AEC)的時(shí)候,很多人都沒有意識(shí)到這是一個(gè)很有價(jià)值的產(chǎn)品。但在今天,AEC已經(jīng)改變了整個(gè)行業(yè)的規(guī)則!盋redo銷售副總裁楊學(xué)賢在談到公司對(duì)于技術(shù)的前瞻性能力的時(shí)候,使用了AEC的案例。
在如今一些全球領(lǐng)先廠商展示的基于銅纜的人工智能應(yīng)用中,以Credo為代表的色彩鮮明的紫色AEC線纜聯(lián)通起了機(jī)架上的每一臺(tái)服務(wù)器。AEC電纜展現(xiàn)出了在AI應(yīng)用中的獨(dú)特價(jià)值,在繼北美互聯(lián)網(wǎng)公司之后,也正在開始被國(guó)內(nèi)互聯(lián)網(wǎng)企業(yè)所關(guān)注。
在今年的光博會(huì)上,Credo專為中國(guó)超級(jí)數(shù)據(jù)中心市場(chǎng)量身打造,推出適用于400G Q112網(wǎng)絡(luò)接口的HiWire SHIFT AEC(有源電纜Active Electrical Cables)新系列產(chǎn)品,可以滿足AI/ML后端網(wǎng)絡(luò)與TOR交換機(jī)之間的網(wǎng)絡(luò)連接需求。
AEC在人工智能領(lǐng)域的認(rèn)可與其自身的技術(shù)優(yōu)勢(shì)有關(guān)。根據(jù)實(shí)際測(cè)試數(shù)據(jù)反饋,在連接可靠性上,可比光纜高出一到兩個(gè)數(shù)量級(jí)。這就意味AEC電纜將可助力算力利用率的提升,當(dāng)前利用率低的原因正在于互聯(lián),一旦一個(gè)節(jié)點(diǎn)發(fā)生故障或鏈路斷聯(lián),傳輸就要重新進(jìn)行,導(dǎo)致算力利用率普遍僅為40%—50%。AI行業(yè)開始重新重視銅互聯(lián)與電互聯(lián)的原因正在于通過(guò)AEC對(duì)于連接可靠性的大幅提升,從而解決這一癥結(jié)。
此外,如前文所述的機(jī)架中服務(wù)器的密度增加,要求線纜具有更好的布線靈活度,也就是要易于彎折,才能不會(huì)過(guò)多遮擋機(jī)柜前面的氣流,對(duì)散熱造成影響。而AEC作為一根銅纜,沒有任何光學(xué)組件,僅每端都放置了一個(gè)基于Credo自有銅DSP技術(shù)的Retimer,來(lái)負(fù)責(zé)端到端的信號(hào)傳輸。于是,AEC在現(xiàn)有AI領(lǐng)域機(jī)房的布線中,不僅好部署,還擁有極長(zhǎng)的生命周期。
AEC還具有低功耗上的優(yōu)勢(shì),其中的DSP都是業(yè)界功耗最低的產(chǎn)品,一個(gè)400G的AEC的單端功率在5W左右,大約僅為一個(gè)400G光模塊的50%。
以本次發(fā)布的SHIFT AEC產(chǎn)品為例,基于Credo先進(jìn)的800G HiWire AEC設(shè)計(jì)優(yōu)化而來(lái),能效卓越,性能更佳,且具有極致的可靠性,MTBF(平均故障間隔時(shí)間)長(zhǎng)達(dá)1億小時(shí),該數(shù)據(jù)對(duì)于AI/ML應(yīng)用而言無(wú)疑至關(guān)重要。
AEC產(chǎn)品負(fù)責(zé)人Ameet Suri表示:“為了滿足中國(guó)超級(jí)數(shù)據(jù)中心市場(chǎng)客戶對(duì)Q112 TOR接口的需求,Credo拓展其800G HiWire AEC產(chǎn)品系列,推出包含三款Q112新品的HiWire SHIFT AEC新產(chǎn)品系列。HiWire AEC不斷受到超級(jí)數(shù)據(jù)中心運(yùn)營(yíng)商們的青睞,被用于NIC與TOR之間的連接。我們期待借助此次推出的AEC新品,進(jìn)一步提升AEC解決方案在中國(guó)市場(chǎng)的滲透率!
除了AEC產(chǎn)品外,關(guān)于Credo之于“相信”的技術(shù)前瞻性案例,LRO也同樣可以稱得上是一個(gè)典范。
LRO讓聰明不燒腦
隨著能耗問(wèn)題在數(shù)據(jù)中心和AI基礎(chǔ)設(shè)施在規(guī)模擴(kuò)張中問(wèn)題的凸顯,尤其在一年前,伴隨著800G容量的增加,業(yè)界也開始關(guān)注收發(fā)器的功率問(wèn)題。其中已有的LPO方案由于互操作性,依賴鏈路和故障排除能力等技術(shù)限制,大大限制了部署熱情。據(jù)Cignal預(yù)測(cè),LPO方案在800GbE的市場(chǎng)份額將不會(huì)超過(guò)10%。
對(duì)此,Credo提出了線性接收光路(LRO)解決方案,僅將DSP保留在光收發(fā)器的發(fā)射端。其優(yōu)勢(shì)在于,僅在發(fā)端放置的DSP可以保證光纖上的擁有完美高質(zhì)量、符合標(biāo)準(zhǔn)的光信號(hào),達(dá)到與完整DSP方案一樣的效果。此舉自然實(shí)現(xiàn)了節(jié)省功耗的目的,由于LRO方案移除了一半的DSP,因此可以節(jié)省一半的DSP功耗,且仍舊保持了非常好的網(wǎng)絡(luò)性能。
Credo Dove 850作為世界上第一款針對(duì)LRO應(yīng)用優(yōu)化的DSP產(chǎn)品,將800G光收發(fā)器的功耗控制在低于10W的水平,對(duì)比使用完整DSP的光收發(fā)器,可節(jié)省大約40%—50%的功耗。并且不會(huì)像LPO解決方案會(huì)犧牲網(wǎng)絡(luò)性能。
基于Dove850方案的光模塊通過(guò)提升符合IEEE標(biāo)準(zhǔn)的光發(fā)射信號(hào)質(zhì)量來(lái)解決線性可插拔光連接(LPO)方案的固有缺陷,并可避免手動(dòng)調(diào)試每個(gè)端口以減輕客戶的系統(tǒng)運(yùn)維負(fù)擔(dān)。對(duì)比結(jié)果就是,Dove850方案擁有更低誤碼率,增強(qiáng)了靈敏度,減少性能偏差,并提升了對(duì)交換ASIC、PCB走線、光器件及環(huán)境因素的包容度。
未來(lái),Credo將會(huì)持續(xù)開發(fā)完整的DSP以及LRO解決方案,并計(jì)劃在DSP中集成一種特殊的診斷預(yù)警功能,來(lái)幫助客戶實(shí)時(shí)監(jiān)控電路工作狀態(tài)。
“相信,是一個(gè)漫長(zhǎng)而痛苦的等待過(guò)程,也是一個(gè)技術(shù)不斷打磨、不斷優(yōu)化的過(guò)程。”楊學(xué)賢表示因?yàn)橛辛斯緦?duì)于技術(shù)的相信與持續(xù)投入,才能造就這些有價(jià)值的、改變行業(yè)規(guī)則的產(chǎn)品。
如果說(shuō)AI的高速發(fā)展,是人類集體大腦的一個(gè)全新進(jìn)化,那么對(duì)于參與構(gòu)建這顆大腦中的神經(jīng)系統(tǒng)重要一環(huán)的Credo來(lái)說(shuō),或許不僅僅是讓這顆飛速成長(zhǎng)的大腦思考不中斷、聰明不燒腦,也刻下了關(guān)于人類的“技術(shù)信條”烙印。