肯睿Cloudera大中華區(qū)技術(shù)總監(jiān) 劉隸放
肯睿Cloudera的客戶大多運行著龐大的數(shù)據(jù)湖,從而為關(guān)鍵大規(guī)模數(shù)據(jù)分析和AI用例(包括企業(yè)數(shù)據(jù)庫)提供助力。根據(jù)IDC發(fā)布的《IDC MarketScape:中國實時湖倉市場2024年廠商評估》報告中的數(shù)據(jù)顯示,未來12個月,選擇外部合作來構(gòu)建數(shù)據(jù)管理服務(wù)的企業(yè)比例將從58%快速增長至85%。數(shù)據(jù)量的快速增長、對數(shù)據(jù)管理需求的升級以及技術(shù)架構(gòu)復(fù)雜度和獨立開發(fā)成本的上升,都將推動企業(yè)開始越來越多地考慮湖倉一體的管理解決方案。
肯睿Cloudera在平臺中提供的Apache Iceberg能夠幫助用戶避免廠商鎖定,實現(xiàn)開放式湖倉一體架構(gòu)。借助由Apache Iceberg支持的開放式湖倉一體架構(gòu),企業(yè)可以更好地利用分析和AI的力量。近日,肯睿Cloudera還宣布了現(xiàn)代化數(shù)據(jù)目錄和Iceberg REST集成這兩項關(guān)鍵增強功能更新,以加強元數(shù)據(jù)管理,進一步提高開放式數(shù)據(jù)湖倉一體架構(gòu)內(nèi)部的開放互通性,滿足數(shù)據(jù)全生命周期內(nèi)日益增長的安全和治理需求。
將AI和分析部署到開放式數(shù)據(jù)湖倉一體架構(gòu)中有諸多優(yōu)點,其主要優(yōu)勢之一是能夠?qū)⒉煌瑏碓吹臄?shù)據(jù)集中到一個單一且連貫的存儲庫中。開放式數(shù)據(jù)湖倉一體架構(gòu)融合了數(shù)據(jù)湖的靈活性,以及數(shù)據(jù)倉庫的結(jié)構(gòu)化查詢功能,可以容納多種類型、格式和速度的原始數(shù)據(jù)和處理后的數(shù)據(jù)。這種統(tǒng)一的數(shù)據(jù)環(huán)境不僅避免了維護獨立數(shù)據(jù)孤島的工作,還便于AI和分析應(yīng)用無縫訪問數(shù)據(jù)。
肯睿Cloudera可助力企業(yè)充分利用開放式數(shù)據(jù)湖倉一體架構(gòu)的以下優(yōu)勢:
●數(shù)據(jù)湖和數(shù)據(jù)倉庫的集成:開放式數(shù)據(jù)湖倉一體架構(gòu)整合了數(shù)據(jù)湖的存儲靈活性,以及數(shù)據(jù)倉庫的查詢性能和結(jié)構(gòu)化查詢功能,實現(xiàn)了兩者的緊密結(jié)合。
●開放性:開放式數(shù)據(jù)湖倉一體架構(gòu)中的“開放”一詞指的是與各種數(shù)據(jù)處理框架、分析工具和編程語言的互通性和兼容性。這種開放性使數(shù)據(jù)科學家、分析師和開發(fā)人員能夠充分利用他們的首選工具和方法來探索、分析數(shù)據(jù)并從中獲得洞察,以更好地協(xié)作和創(chuàng)新。無論是基于SQL的傳統(tǒng)查詢、先進的機器學習(ML)算法,還是復(fù)雜的數(shù)據(jù)處理工作流程,開放式數(shù)據(jù)湖倉一體架構(gòu)都能提供一個可適應(yīng)各種分析工作負載的靈活、可擴展的平臺。
●可擴展性和靈活性:與傳統(tǒng)數(shù)據(jù)湖一樣,開放式數(shù)據(jù)湖倉一體架構(gòu)也能夠橫向擴展,容納來自不同來源的大量數(shù)據(jù)。它可以靈活存儲原始數(shù)據(jù)和處理后的數(shù)據(jù),幫助企業(yè)適應(yīng)不斷變化的數(shù)據(jù)要求和分析需求。隨著數(shù)據(jù)量增長和分析需求的變化,企業(yè)可以連續(xù)橫向擴展其基礎(chǔ)設(shè)施,以滿足不斷增加的數(shù)據(jù)攝取、處理和存儲需求。這種可擴展性確保了數(shù)據(jù)湖倉一體架構(gòu)即使在數(shù)據(jù)復(fù)雜性和使用模式發(fā)生變化時,也能保持響應(yīng)速度和性能。
●統(tǒng)一的數(shù)據(jù)平臺:開放式數(shù)據(jù)湖倉一體架構(gòu)作為數(shù)據(jù)存儲、處理和分析的統(tǒng)一平臺,減少了維護獨立數(shù)據(jù)孤島和ETL(提取、轉(zhuǎn)換、加載)流程的需要。將AI和分析部署到開放式數(shù)據(jù)湖倉一體架構(gòu)中可以促進數(shù)據(jù)的民主化和自助式分析,讓整個企業(yè)的用戶都能夠自主訪問、分析數(shù)據(jù)并從中獲得洞察。通過提供統(tǒng)一、可訪問的數(shù)據(jù)平臺,企業(yè)能夠打破數(shù)據(jù)孤島、實現(xiàn)數(shù)據(jù)和分析工具訪問的民主化,并在各級培養(yǎng)數(shù)據(jù)驅(qū)動決策的習慣。這種數(shù)據(jù)和分析的民主化可提高企業(yè)的敏捷性和競爭力以及員工的協(xié)作能力和數(shù)據(jù)素養(yǎng)(data-literate)。
●支持現(xiàn)代分析工作負載:開放式數(shù)據(jù)湖倉一體架構(gòu)支持基于SQL的查詢和高級分析框架(如ML、圖形處理等),滿足了各種分析工作負載的需求,包括即席查詢(Ad Hoc Query)、復(fù)雜數(shù)據(jù)處理和預(yù)測建模等工作。
●數(shù)據(jù)治理與安全:肯睿Cloudera近日發(fā)布的元數(shù)據(jù)管理解決方案的兩項關(guān)鍵增強功能,滿足了數(shù)據(jù)全生命周期內(nèi)日益增長的安全和治理需求?项loudera的Iceberg REST Catalog集成允許使用第三方引擎無縫訪問Apache Iceberg表,幫助用戶在充分利用各種工具的同時,確保統(tǒng)一的安全性和治理。該集成能夠簡化數(shù)據(jù)訪問,并維持各個平臺上的數(shù)據(jù)權(quán)限和溯源,通過更大程度地減少獨立安全層數(shù)量來降低成本和數(shù)據(jù)泄露的風險。
此外,肯睿Cloudera的共享數(shù)據(jù)體驗(SDX)現(xiàn)已發(fā)布以云原生容器形式提供的技術(shù)預(yù)覽版,實現(xiàn)了端到端的統(tǒng)一數(shù)據(jù)安全、治理和元數(shù)據(jù)管理,并且已得到增強,具有更出色的彈性、擴展性和性能。SDX還提供各種工具的自助式數(shù)據(jù)訪問、通過整合安全功能,更大程度地降低違規(guī)風險,并支持覆蓋云和本地數(shù)據(jù)的統(tǒng)一視圖窗口管理。
開放式數(shù)據(jù)湖倉一體架構(gòu)代表了一種現(xiàn)代化的數(shù)據(jù)管理和分析方法,助力企業(yè)充分挖掘其數(shù)據(jù)資產(chǎn)潛力的同時,實現(xiàn)開放性、可擴展性和互通性。
點擊此處了解有關(guān)肯睿Cloudera開放式數(shù)據(jù)湖倉一體架構(gòu)的更多信息。