在網絡中,嚴重的故障狀態(tài)可以通過告警機制來檢測,但是在多個設備單元之間的非常低速率或者間歇性錯誤狀態(tài),會導致業(yè)務質量降低,卻是無法通過告警機制來檢測到,這種情況下,就需要性能監(jiān)控了。性能監(jiān)控一般使用連續(xù)性的收集與網元性能相關的數據,一般情況下,設備提供原始的統(tǒng)計數據,網管或者專門的性能管理服務器進行處理,生成各種報表,進行相關性分析,趨勢分析等等,最終以報告、圖表或者其他形式呈現給客戶。
性能監(jiān)控和責任定界
電信網絡由于所有權歸屬,維護體制,維護團隊上的不同,存在不同的維護域,不同的維護域之間互相不感知,或者不必要感知。不同維護域之間存在邊界的,邊界和邊界之間的界限就需要有清晰的分界,以便于維護。以LTE移動承載為例,說明維護域的不同。
移動網絡維護域示意圖
如圖1所示,在一個端到端的LTE移動網絡中,可能存在多個維護域。無線維護域,無線維護人員僅負責基站、S-GW/MME等的維護,對中間的回傳網絡不可見,不感知;移動回傳維護人員負責從基站側CSG(基站側網關Cell Site Gateway)經過ASG(匯聚網關Aggregation Site Gateway)再到到RSG(RNC側網關RNC Site Gateway)之間的網絡的維護和管理,對無線網絡不感知,不可見。有故障時,不同維護團隊需要快速的分清責任,快速進行故障定位和排障,對鏈路可管、可控、可視。為達到這個目的,CSG在移動回傳網絡提供如下一些功能,端到端監(jiān)控鏈路的性能:
和RSG組成端到端網絡,對這些電路連接的提供性能監(jiān)控,提供可視的鏈路狀態(tài)報告,加速故障定位和排障;
和RSG組成端到端網絡,對這些電路連接的連續(xù)性進行檢測,實時的感知網絡中斷與否,并在中斷時及時倒換到備用鏈路上去。
回傳網絡的一個重要的作用,就是將所承載的電路連接變成可見、可感知、可控、可預知,出現故障時,通過承載網豐富和強大的OAM能力、性能監(jiān)控能力,加快故障定位和排障,盡量減少業(yè)務中斷時間。
華為LTE承載網性能監(jiān)控解決方案
LTE承載網因為X2接口的引入變得十分復雜,在排障、責任定界和快速故障定位方面提出了新的挑戰(zhàn),對網絡可管、可控、可視能力要求更高。因此,對每一段、每一個網絡層次的性能監(jiān)控、OAM管理、故障定位、責任定界就非常重要。
ITU-T和IETF分別定義了多種分組網絡的性能監(jiān)控的標準,從測量方式上可以劃分為間接測量和直接測量兩種方式。
間接測量是通過插入測試流,測量測試流的丟包率和延時,用測試流的性能表現來表征實際業(yè)務流的性能等。間接測量有如下缺點:
插入測試流會影響業(yè)務質量,尤其是在擁塞時;
測試流的表現不能完全代表真正業(yè)務流的表現,業(yè)務流的優(yōu)先級、報文長度、QoS調度過程等都會影響測試結果,從而能引入較大誤差;
間接測量一般都是通過軟件實現,無法大規(guī)模部署,測量精度也有限,也會影響正常業(yè)務。
直接測量是直接針對業(yè)務流的測試,一般是將業(yè)務流劃分為一系列測量區(qū)間,在兩個測量點分別統(tǒng)計對應區(qū)間的發(fā)包數、收包數和延時,同一個區(qū)間的發(fā)包/收包數的差就是該區(qū)間的丟包數。直接測量的優(yōu)點在于:
直接體現業(yè)務流的性能,完全是真正業(yè)務流的實際表現,和實際網絡一致;
測量結果精確,因為是針對實際業(yè)務流的統(tǒng)計,結果更精確;
不干擾正常業(yè)務,對正常業(yè)務流進行簡單“染色”或者使用特殊的標簽值,不影響正常業(yè)務;
一般都是通過硬件實現,對整機性能沒有影響。
下面的列表將當前主要的一些分組網性能監(jiān)控方式簡單總結一下:
表1各種在線性能監(jiān)控標準簡單對比
從上面對比可以看出,間接測量的結果只能在一點程度上表征實際網絡的性能,實際網絡部署時,應該盡量使用IPFPM直接測量模式,目前已經成為發(fā)展趨勢。
1)IP FPM提供在線IP性能監(jiān)控
IP FPM(IP Flow-based Performance Monitoring)是華為獨創(chuàng)的IP在線網絡性能監(jiān)控解決方案,已經有IETF草案發(fā)布,http://tools.ietf.org/html/draft-chen-coloring-based-ipfpm-framework-01,其基礎架構如下圖所示:
IP FPM架構
IP FPM架構中包含三個邏輯體:
DCP:Data Collecting Point,每臺參與IP FPM監(jiān)控的設備上配置一個DCP,DCP收集本設備上TLP的測量信息向MCP報告,MCP進行集中計算得到測量結果。
TLP:Target Logical Port,每個測量實例可包含多個TLP,同一個TLP上可同時進行多個測量實例的測量。TLP識別目標流并進行統(tǒng)計測量,TLP的測量操作基于本地的配置信息,完全獨立于參與同一測量實例的其他TLP,TLP之間無須交換控制信息。TLP可以定義在L2接口上,也可以定義在L3接口上,與協(xié)議無關。
MCP:Measurement Control Point,每個測量實例對應1個MCP,同一個MCP可對應多個測量實例。
IP FPM測量時,并沒有額外引入測試流,因此是直接測量模式,最直觀的體現了業(yè)務流的實際質量;在報文頭中的標記是IP報文中的保留比特,中間網絡不會處理,全部透傳,因此,IP FPM可以支持端到端部署,對中間網絡無特殊要求,可部署性好。
IP FPM實現了控制平面與數據轉發(fā)平面解耦,控制平面的DCP、MCP和轉發(fā)平面的TLP分離,同時TLP與協(xié)議無關,可以支持L2接口,也可以支持L3接口,同一測量實例可包含不同協(xié)議接口的TLP,實現了跨異種網絡的直接E2E測量,例如L2 + L3網絡的端到端測量,也可以支持點到多點的組網。
2)內置RFC2544實現離線性能監(jiān)控
既然要隔離用戶網絡和運營商網絡,提供清晰的維護界面,便于在出故障時分清責任,那么提供一份完善的SLA報告就是一個很好的解決方案。為測試以太網專線業(yè)務性能,提供相應的SLA報告,業(yè)界比較成熟的解決方案是通過RFC 2544來實現。
華為LTE承載解決方案中,ATN支持內置RFC2544產生器和分析器,以及反射器。如下圖所示:
內置RFC2544示意圖
雙向測試模式時,近端ATN支持測試報文生成器,發(fā)送到遠端;遠端設備(不限定是ATN),將收到的測試報文反射回去(可以通過端口物理環(huán)回或者邏輯環(huán)回),近端ATN收到后,和發(fā)送的報文進行對比和分析,就可以計算出延時、丟包率、吞吐量了。內置RFC 2544可以實現免以太網儀表開局,業(yè)務自動驗收,提供SLA報告,進行網絡定界,分清責任,在不同運營商網絡、相同運營商不同運維部門之間的進行責任定界等。
3)Y.1731提供完善二層性能監(jiān)控解決方案
ATN支持完整的Y.1731定義的PM部分,包括幀丟失,幀延時等,能提供基于VLAN,PW和端口的性能統(tǒng)計,提供完善的以太網二層性能監(jiān)控解決方案:
幀丟失測量(ETH-LM),包括單端ETH-LM和雙端ETH-LM
幀延時測量(ETH-DM),包括單向ETH-DM和雙向ETH-DM
吞吐量測量
Y.1731標準里面,在描述以太網吞吐量測量指出,RFC2544已經定義了測試方法和要求。并指出可以基于ETH-LB和ETH-TST來完成吞吐量測試,但是沒有進一步的實現描述。ATN提供吞吐量測試是通過ATN支持的內置RFC2544測試功能來提供吞吐量測試功能的,詳細請參考本文有關RFC2544部分章節(jié)。
uTraffic性能管理平臺使網絡流量可經營
uTraffic是華為公司承載網的統(tǒng)一性能管理平臺,聚焦網絡流向、流量管理,以及管道質量的可視化,實現海量數據匯聚、分析
uTraffic在網絡中的位置
uTraffic作為網絡管道的智能管理系統(tǒng),具有以下優(yōu)勢:
統(tǒng)一的性能分析系統(tǒng)
uTraffic統(tǒng)一管理路由設備、接入設備和傳送設備的性能,靈活構成FTTx、IP Core/IP METRO、IPRAN等多種性能解決方案。從設備性能維度,通過對設備CPU利用率、內存利用率、資源利用率等指標的監(jiān)控反映設備的運行狀態(tài)。從業(yè)務性能維度,通過對丟包率、誤碼率、時延、抖動等KPI反映業(yè)務的品質。
大容量采集能力
uTraffic提供了獨立的性能采集器,除采用業(yè)界通用的SNMP模式外,還提供了獨特的BULK采集模式,將設備性能數據通過FTP/SFTP協(xié)議進行傳輸,性能采集能力提升顯著,可滿足大規(guī)模網絡的性能采集要求。
流量管理可視化
uTraffic具有強大的GUI展示能力,可以在GIS地圖上動態(tài)展現各網絡節(jié)點的流量情況,可以精確了解各網絡節(jié)點的各種性能指標詳細情況,充分了解業(yè)務流量、流向以及業(yè)務質量。支持GIS地圖、業(yè)務流量可視、業(yè)務質量可視、強大自定義Dashboard輸出、一鍵式導出分析報告、支持離線分析和匯總、Email信息及時推送
E2E業(yè)務質量監(jiān)控
uTraffic基于網絡拓撲進行網絡性能數據監(jiān)控,通過各種靈活的統(tǒng)計報表和性能展示方案,實現對網絡業(yè)務的質量監(jiān)控。
容量管理和趨勢預測
通過對網絡流量的分析,及時掌握網絡中流量分布情況,并基于與歷史性能數據或峰值數據的對比,對網絡流量趨勢進行預測。客戶可據此進行動態(tài)的網絡流量調整或作為未來網絡擴容的依據。
結束語
LTE承載相對3G承載來說,網絡規(guī)模更大、復雜程度更高,責任定界、故障診斷和快速定位更難,網絡安全性要求更高。華為提供多層次性能監(jiān)控解決方案,用于不同維護域之間定界,形成不同的維護域之間的清晰的維護界面,在出現故障時,根據設備的OAM能力,提供相應的SLA報告,分清網絡責任,快速進行定位和排障,盡可能的減少業(yè)務中斷時間。
華為性能監(jiān)控解決方案支持豐富的OAM機制,例如Y.1731,IP FPM,內置RFC 2544功能等。在線性能監(jiān)控中,對二層網絡,建議使用Y.1731實現;三層網絡,建議部署IP FPM,L2 + L3端到端網絡,推薦IP FPM;離線性能測試,建議內置RFC 2544.同時為更直觀、更友好地進行性能管理,華為推薦uTraffic圖形化流量經營工具,提供完善的二三層網絡的性能監(jiān)控解決方案,使網絡性能管理更優(yōu)化,網絡端到端流量可視,可管理,可經營,維護責任清晰。