作者:Denodo 首席技術(shù)官 Alberto Pan
企業(yè)多年來的一貫做法是通過數(shù)據(jù)倉庫或近年來興起的數(shù)據(jù)湖,將所有數(shù)據(jù)持續(xù)整合到單一位置。數(shù)據(jù)倉庫、數(shù)據(jù)集市和傳統(tǒng)數(shù)據(jù)庫需以特定方式對數(shù)據(jù)進行結(jié)構(gòu)化和條理化,相比之下,數(shù)據(jù)湖具有多項關(guān)鍵優(yōu)勢。然而企業(yè)發(fā)現(xiàn),他們在構(gòu)建和管理自己的數(shù)據(jù)湖方面投入越多,從中獲得的價值反而越少。企業(yè)也由此看到集中式數(shù)據(jù)基礎(chǔ)架構(gòu)和方法會帶來不符合預(yù)期的后果,包括:
1. 存在認知差異:集中式數(shù)據(jù)團隊對數(shù)據(jù)的了解程度不足以與只專注于全部數(shù)據(jù)集中特定部分的具體業(yè)務(wù)團隊相提并論。
2. 基礎(chǔ)架構(gòu)僵化:集中式數(shù)據(jù)基礎(chǔ)架構(gòu)缺乏靈活性,難以滿足企業(yè)內(nèi)不同部門的需求。
3. 價值實現(xiàn)延后:集中多個數(shù)據(jù)源的數(shù)據(jù)會耗費大量時間,導(dǎo)致數(shù)據(jù)使用者無法按需訪問數(shù)據(jù)。
為了克服這些問題,企業(yè)開始密切關(guān)注一種名為“數(shù)據(jù)網(wǎng)格”的分散式數(shù)據(jù)基礎(chǔ)架構(gòu)新方法。德勤報告認為,“數(shù)據(jù)網(wǎng)格概念是一種管理數(shù)據(jù)的民主化方法,不同業(yè)務(wù)域在中央自助式數(shù)據(jù)基礎(chǔ)架構(gòu)的支持下使用自己的數(shù)據(jù)。該基礎(chǔ)架構(gòu)包括配套的數(shù)據(jù)管道引擎、存儲和計算能力。數(shù)據(jù)網(wǎng)格并非將企業(yè)數(shù)據(jù)看作單一巨型數(shù)據(jù)存儲庫,而是將其視為一組數(shù)據(jù)產(chǎn)品存儲庫。因此,業(yè)務(wù)域(比如“金融”)會以產(chǎn)品形式提供數(shù)據(jù),它們能夠隨時用于分析目的,具有可發(fā)現(xiàn)性與可靠性。就此而言,數(shù)據(jù)產(chǎn)品負責(zé)人本身便是擁有深厚域知識的業(yè)務(wù)域代表。”
在數(shù)據(jù)網(wǎng)格配置中,企業(yè)內(nèi)的不同部門或群組將擁有單獨的數(shù)據(jù)域,由中央自助式數(shù)據(jù)平臺提供支持,并按照一套總體標準進行管理,以確;ゲ僮餍。每個數(shù)據(jù)域都將提供各自的數(shù)據(jù)產(chǎn)品,經(jīng)過專門設(shè)計,方便目標受眾使用,并且符合企業(yè)全局標準。盡管所有權(quán)分散,但預(yù)配和治理保持一定程度的集中。 數(shù)據(jù)網(wǎng)格架構(gòu)有望克服完全集中式基礎(chǔ)架構(gòu)的局限性。但是,許多企業(yè)仍然質(zhì)疑如何在獲得中央數(shù)據(jù)平臺支持與保持域的獨立性之間實現(xiàn)這種微妙的平衡,并希望借助數(shù)據(jù)虛擬化 (DV) 等現(xiàn)有技術(shù)來解決這一問題。
支持無復(fù)制數(shù)據(jù)訪問
能夠有所幫助的解決方案形形色色,數(shù)據(jù)虛擬化作為一種數(shù)據(jù)集成技術(shù),已成為實現(xiàn)數(shù)據(jù)網(wǎng)格的關(guān)鍵環(huán)節(jié)。與提取、轉(zhuǎn)換和加載 (ETL) 流程以及其他面向批處理的數(shù)據(jù)集成方法不同,Denodo數(shù)據(jù)虛擬化讓數(shù)據(jù)使用者無需先將數(shù)據(jù)復(fù)制到集中式存儲庫即可訪問數(shù)據(jù)。從這一層面來看,可以認為數(shù)據(jù)虛擬化本質(zhì)上是一種“分散式”數(shù)據(jù)集成策略,因為這種策略將在企業(yè)的不同數(shù)據(jù)源之上建立企業(yè)范圍的數(shù)據(jù)層。要在不同數(shù)據(jù)源之間進行查詢時,數(shù)據(jù)使用者只需查詢數(shù)據(jù)虛擬化層,然后該層便會檢索所需數(shù)據(jù),讓使用者不必受困于訪問的復(fù)雜性。數(shù)據(jù)虛擬化層不含實際數(shù)據(jù);但其存儲了訪問各種數(shù)據(jù)源所需的所有元數(shù)據(jù)。
Denodo數(shù)據(jù)虛擬化提供單一位置來存儲元數(shù)據(jù),支持企業(yè)從單一控制點,在整個企業(yè)范圍內(nèi)自動實現(xiàn)基于角色的安全性和執(zhí)行數(shù)據(jù)治理協(xié)議。例如,企業(yè)可以自動脫敏處理薪資數(shù)據(jù),用戶必須擁有必要憑據(jù)才可查看此類信息。數(shù)據(jù)虛擬化層提供數(shù)據(jù)網(wǎng)格架構(gòu)中所需的自助式數(shù)據(jù)平臺的大部分必要功能。
企業(yè)可在數(shù)據(jù)虛擬化層之上實施多個語義層,由不同部門架構(gòu),并作為半自治數(shù)據(jù)域運行。每一個語義層都可以靈活地調(diào)整或移除,而不會改變或影響底層數(shù)據(jù)。因此,企業(yè)可以輕松地建立支持跨不同域重用的標準數(shù)據(jù)定義,并確保不同數(shù)據(jù)產(chǎn)品之間的語義互操作性,從而促進聯(lián)合治理。
打造數(shù)據(jù)產(chǎn)品
當企業(yè)希望通過數(shù)據(jù)網(wǎng)格來開發(fā)數(shù)據(jù)產(chǎn)品時,他們會利用數(shù)據(jù)虛擬化層來創(chuàng)建虛擬模型,而利益相關(guān)者無需了解為之提供信息的數(shù)據(jù)源的復(fù)雜性。因此,企業(yè)可以利用一系列靈活的方法(例如 SQL、REST、OData、GraphQL 或 MDX),使這些虛擬模型作為數(shù)據(jù)產(chǎn)品被訪問,此過程不需要編寫代碼。
此外,這些模型還具備用于支持數(shù)據(jù)產(chǎn)品的數(shù)據(jù)沿襲跟蹤、自主記錄、變更影響分析、身份管理和單點登錄 (SS0) 等功能。通過集中存儲元數(shù)據(jù),數(shù)據(jù)虛擬化層可以提供全功能綜合數(shù)據(jù)產(chǎn)品目錄的所有必要成分,以供通過該目錄清晰解讀企業(yè)中按域有序排列的數(shù)據(jù)資產(chǎn)。
建立數(shù)據(jù)域自治
Denodo數(shù)據(jù)虛擬化使企業(yè)能夠在不影響底層數(shù)據(jù)的情況下,在源數(shù)據(jù)之上構(gòu)建視圖和語義模型,因此也為數(shù)據(jù)域自治提供了現(xiàn)成的基礎(chǔ)。該架構(gòu)使數(shù)據(jù)域利益相關(guān)者能夠選擇為其產(chǎn)品提供數(shù)據(jù)的數(shù)據(jù)源,并根據(jù)需要更改組合以滿足其需求。一些業(yè)務(wù)部門已在運營自己的數(shù)據(jù)集市和滿足偏好的 SaaS 應(yīng)用程序,由于數(shù)據(jù)域可以獨立擴展,這些部門能夠在數(shù)據(jù)網(wǎng)格配置中輕松地重用信息。
請務(wù)必注意,數(shù)據(jù)虛擬化不能取代數(shù)據(jù)倉庫和數(shù)據(jù)湖等單體存儲庫;數(shù)據(jù)虛擬化處理此類存儲庫的方式與任何其他數(shù)據(jù)源相同,在數(shù)據(jù)網(wǎng)格配置中,它們將成為網(wǎng)格中的節(jié)點。這意味著與現(xiàn)有數(shù)據(jù)倉庫或數(shù)據(jù)湖聯(lián)系緊密的數(shù)據(jù)域可以繼續(xù)通過這種方式為某些數(shù)據(jù)產(chǎn)品提供服務(wù),例如需要機器學(xué)習(xí)的數(shù)據(jù)產(chǎn)品。在這種情況下,數(shù)據(jù)產(chǎn)品將繼續(xù)通過虛擬層被訪問,管理數(shù)據(jù)產(chǎn)品的協(xié)議也與負責(zé)數(shù)據(jù)網(wǎng)格其余部分的協(xié)議相同。
數(shù)據(jù)網(wǎng)格可以避開高度集中型數(shù)據(jù)基礎(chǔ)架構(gòu)的許多陷阱,是一種前景廣闊的新架構(gòu)。但是企業(yè)需要正確的技術(shù)支撐,才能通過簡單明了的方式有效地利用數(shù)據(jù)網(wǎng)格,而無需更換舊硬件。