(作者:王積杰,IBM 大中華區(qū) 云計(jì)算與認(rèn)知軟件事業(yè)部 數(shù)據(jù)與人工智能 信息架構(gòu)產(chǎn)品總監(jiān) )
IT世界,每隔10年,就會(huì)出現(xiàn)一個(gè)IT的風(fēng)口。20年前是數(shù)據(jù)倉庫,10年前是大數(shù)據(jù)和數(shù)據(jù)湖,今天,一個(gè)名為Data Fabric (數(shù)據(jù)經(jīng)緯)的數(shù)據(jù)架構(gòu)浮出水面,開始引發(fā)人們的關(guān)注。
我們首先來看,當(dāng)今的IT數(shù)據(jù)架構(gòu)和十多年前有什么不同了。在數(shù)據(jù)倉庫時(shí)代,企業(yè)的數(shù)據(jù)量還不算大,一般幾十個(gè)TB, 數(shù)據(jù)倉庫的建設(shè)一般采用中心化的方式,將各個(gè)應(yīng)用系統(tǒng)的數(shù)據(jù),從各個(gè)系統(tǒng)抽取出來,清洗轉(zhuǎn)換后,加載到數(shù)據(jù)倉庫里。由于架構(gòu)相對(duì)簡(jiǎn)單,數(shù)據(jù)模型直觀,相關(guān)的數(shù)據(jù)集成的工具軟件及元數(shù)據(jù)管理的重要性并不突出,很多客戶選擇了忽視這一部分。而到了大數(shù)據(jù)時(shí)代,由于非結(jié)構(gòu)化數(shù)據(jù)的導(dǎo)入,數(shù)據(jù)量大了,企業(yè)擁有上百個(gè)TB的數(shù)據(jù)成為了日常。但數(shù)據(jù)架構(gòu)還是集中式,工具軟件及元數(shù)據(jù)還是沒有被廣泛地應(yīng)用。
今天已經(jīng)到了一個(gè)云的時(shí)代。在企業(yè)內(nèi)部,除了有各種本地應(yīng)用系統(tǒng),還有數(shù)據(jù)倉庫(Data Warehouse)和很多數(shù)據(jù)集市(Data Mart),大數(shù)據(jù)平臺(tái)( Big Data Platform)和數(shù)據(jù)湖(Data Lake)往往也是不可缺少,除了本地私有云平臺(tái),往往很多應(yīng)用也會(huì)放到公有云平臺(tái)之上。在這樣一個(gè)分布式的數(shù)據(jù)架構(gòu)中,如果為了獲取數(shù)據(jù),還要把數(shù)據(jù)搬移復(fù)制,集中到某一個(gè)地方去,其成本將會(huì)非常之大。因此,是否有辦法既不需要搬動(dòng)數(shù)據(jù),允許數(shù)據(jù)還是保留在各個(gè)應(yīng)用系統(tǒng)里,又能讓數(shù)數(shù)據(jù)科學(xué)家們?cè)谛枰臅r(shí)候能夠非常方便地獲取這些數(shù)據(jù)呢?于是,一個(gè)名為Data Fabric (數(shù)據(jù)經(jīng)緯)的數(shù)據(jù)架構(gòu)因此而誕生了。
有關(guān)Data Fabric (數(shù)據(jù)經(jīng)緯), Gartner和Forrester 都有明確的定義,其中,Forrester寫到:“Data Fabric (數(shù)據(jù)經(jīng)緯)是以一種智能和安全的并且是自服務(wù)的方式,動(dòng)態(tài)地協(xié)調(diào)分布式的數(shù)據(jù)源,跨數(shù)據(jù)平臺(tái)地提供集成和可信賴的數(shù)據(jù),支持廣泛的不同應(yīng)用的分析和使用場(chǎng)景”。這些語句也許有些拗口,我們可以用更通俗的語言來描述,那就是,”使需要用數(shù)據(jù)的人,隨時(shí)能夠了解到他要的數(shù)據(jù)在哪里,數(shù)據(jù)質(zhì)量如何,他可以如何方便地獲取他需要的數(shù)據(jù)! Data Fabric (數(shù)據(jù)經(jīng)緯)的主要功能就是,把正確的數(shù)據(jù),在正確的時(shí)間,傳送給正確的人。通過 Data Fabric (數(shù)據(jù)經(jīng)緯), 對(duì)的人可以從對(duì)的地點(diǎn),在對(duì)的時(shí)間,獲取對(duì)的數(shù)據(jù)。
我們可以把Data Fabric (數(shù)據(jù)經(jīng)緯)想象成一張?zhí)摂M的網(wǎng),網(wǎng)上的每個(gè)節(jié)點(diǎn)就是一個(gè) IT系統(tǒng)。人的大腦里有成萬上億個(gè)神經(jīng)元,他們連接在一起,以非?斓乃俣忍幚砗蛡鬟f信息,F(xiàn)代醫(yī)學(xué)還無法解釋這些信息是如何傳遞的,只能說是以一種虛擬的方式來連接。這里Data Fabric (數(shù)據(jù)經(jīng)緯)也一樣,這張網(wǎng)并不能理解為一種點(diǎn)對(duì)點(diǎn)的連接,而是一種虛擬的連接,可以使數(shù)據(jù)在網(wǎng)上迅速流動(dòng)。
要實(shí)現(xiàn)Data Fabric (數(shù)據(jù)經(jīng)緯)這樣的架構(gòu),有時(shí)候阻礙不是來自技術(shù),而是人。很多時(shí)候,不同的業(yè)務(wù)部門把持著各自的數(shù)據(jù),不愿共享,怕共享數(shù)據(jù)會(huì)降低本部門的權(quán)威。亞馬遜的 CEO 貝索斯就曾經(jīng)在一個(gè)內(nèi)部的高層會(huì)議上,對(duì)一眾高管發(fā)火,他說:“你們要么共享數(shù)據(jù),要么離開公司!” 因?yàn)?貝索斯清楚地知道,發(fā)揮數(shù)據(jù)價(jià)值,給公司帶來業(yè)務(wù)上的回報(bào),是一家互聯(lián)網(wǎng)公司的命脈。如果任由個(gè)別高管阻礙這種數(shù)據(jù)的共享,帶來的后果將是毀滅性的。雖然有的人擔(dān)心,數(shù)據(jù)共享會(huì)帶來數(shù)據(jù)安全和隱私保護(hù)的問題,但這些問題都有相應(yīng)的技術(shù)手段來解決,并不能成為阻礙數(shù)據(jù)共享的理由。
Data Fabric (數(shù)據(jù)經(jīng)緯) 可以同時(shí)給業(yè)務(wù)和技術(shù)團(tuán)隊(duì)帶來明確的價(jià)值。從業(yè)務(wù)層面來看,由于企業(yè)能更容易地獲得高質(zhì)量的數(shù)據(jù),從而能更快和更精確地獲得企業(yè)數(shù)據(jù)洞察。數(shù)據(jù)科學(xué)家和業(yè)務(wù)人員能夠花更多時(shí)間在數(shù)據(jù)分析上,而不是去尋找和準(zhǔn)備數(shù)據(jù),可以給數(shù)據(jù)使用者提供完美的自我服務(wù)的數(shù)據(jù)消費(fèi)體驗(yàn)。優(yōu)質(zhì)和全面的數(shù)據(jù),可以避免由于數(shù)據(jù)訪問的限制而造成的數(shù)據(jù)分析偏差,從而可以提升企業(yè)數(shù)據(jù)的合規(guī)性和安全性。 從技術(shù)層面來說,由于較少的數(shù)據(jù)復(fù)制的次數(shù)和數(shù)量,從而減少了數(shù)據(jù)集成的工作,方便維護(hù)數(shù)據(jù)質(zhì)量和標(biāo)準(zhǔn),也減少了硬件架構(gòu)和存儲(chǔ)的開銷。 由于減少了數(shù)據(jù)復(fù)制和大大優(yōu)化了數(shù)據(jù)流程,加快并簡(jiǎn)化了數(shù)據(jù)處理過程,從而通過實(shí)施自動(dòng)化的整體數(shù)據(jù)策略,減少了數(shù)據(jù)訪問管理的工作。
要實(shí)現(xiàn)上述的Data Fabric (數(shù)據(jù)經(jīng)緯)的目標(biāo),至少需要四個(gè)方面的基本能力:
1) 能夠在數(shù)據(jù)之間建立虛擬鏈接,簡(jiǎn)化數(shù)據(jù)訪問的模式,從而減少數(shù)據(jù)復(fù)制的數(shù)量。
2) 需要建立一個(gè)企業(yè)的數(shù)據(jù)目錄,并需要利用AI技術(shù),自動(dòng)化地實(shí)現(xiàn)基于語義和知識(shí)的分析,理解數(shù)據(jù)及其業(yè)務(wù)含義,并建立知識(shí)圖譜, 從而使數(shù)據(jù)目錄變得智能化和自動(dòng)化。能夠讓需要數(shù)據(jù)的用戶,隨時(shí)了解他所需要的數(shù)據(jù)在哪里、數(shù)據(jù)質(zhì)量如何等。
3) 建立自動(dòng)化的數(shù)據(jù)平臺(tái),并且允許用戶通過自服務(wù)的方式,訪問并獲取數(shù)據(jù)。
4) 通過提供整體的自動(dòng)化策略,確保數(shù)據(jù)安全,增加數(shù)據(jù)的隱私和權(quán)限保護(hù),并提高數(shù)據(jù)的質(zhì)量。
Data Fabric (數(shù)據(jù)經(jīng)緯)目前是一個(gè)IT熱點(diǎn),眾多國際著名的 IT公司包括IBM、informatica和 Telend等,均推出了針對(duì) Data Fabric 的解決方案。其中,IBM 公司的Cloud Pak for Data針對(duì)上述Data Fabric (數(shù)據(jù)經(jīng)緯)必須具備的四個(gè)基本能力,都能給予很好的支持。IBM早在十多年前,就已經(jīng)推出了有關(guān)數(shù)據(jù)虛擬化的方案Data Virtualization, 目前這個(gè)方案的功能日趨豐富。IBM的數(shù)據(jù)目錄Watson Knowledge Catalog是業(yè)界最強(qiáng)大的智能數(shù)據(jù)目錄解決方案,其中大量使用了IBM企業(yè)級(jí) AI和機(jī)器學(xué)習(xí)的技術(shù),使數(shù)據(jù)目錄智能化和自動(dòng)化,并具有知識(shí)圖譜的能力,方便業(yè)務(wù)用戶使用。IBM數(shù)據(jù)目錄方案內(nèi)嵌了數(shù)據(jù)安全和數(shù)據(jù)隱私保護(hù)的功能,確保在數(shù)據(jù)共享的過程中能符合GDPR的數(shù)據(jù)隱私保護(hù)要求。同時(shí),IBM作為一個(gè)老牌的專業(yè)數(shù)據(jù)集成的供應(yīng)商,其數(shù)據(jù)復(fù)制和數(shù)據(jù)集成的自服務(wù)能力也日趨完善。IBM Cloud Pak for Data 應(yīng)該是目前業(yè)界應(yīng)對(duì) Data Fabric (數(shù)據(jù)經(jīng)緯)功能最為完善的數(shù)據(jù)平臺(tái)。
Data Fabric (數(shù)據(jù)經(jīng)緯)這個(gè)概念在國際上已經(jīng)熱起來了,但目前國內(nèi)的IT用戶知道的人還不多。20年前數(shù)據(jù)倉庫在國外興起后,用了6到8年才傳到中國。10年前大數(shù)據(jù)的概念在國外興起后,不到三年就被中國用戶廣泛接受。目前這個(gè) Data Fabric (數(shù)據(jù)經(jīng)緯)概念,中國可以用多快的速度接受并加以應(yīng)用呢?我們拭目以待!