近日,由開放原子開源基金會(huì)、X-lab 開放實(shí)驗(yàn)室和阿里巴巴開源委員會(huì)聯(lián)合出品的《2022 開源大數(shù)據(jù)熱力報(bào)告》(以下簡(jiǎn)稱“報(bào)告”)在云棲大會(huì)公布。新一代極速全場(chǎng)景 MPP 數(shù)據(jù)庫(kù) StarRocks 榮登報(bào)告Top 30,并作為數(shù)據(jù)查詢與分析方向增速第一的項(xiàng)目出席了 11 月 17 日的報(bào)告圓桌討論會(huì)。
報(bào)告研究了“后 Hadoop 時(shí)代”最活躍的 102 個(gè)開源大數(shù)據(jù)項(xiàng)目,基于 2015 年至今的相關(guān)公開數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,主要考察項(xiàng)目關(guān)注度、貢獻(xiàn)活躍度、協(xié)作關(guān)聯(lián)度和可持續(xù)發(fā)展的健康度,得出每個(gè)項(xiàng)目的熱力值。熱力值主要基于開源項(xiàng)目的每年新增 Star 數(shù)量、新增 Issue 數(shù)量、OpenRank值 等 3 個(gè)關(guān)鍵指標(biāo)加權(quán)計(jì)算而來。在解決用戶痛點(diǎn)、持續(xù)關(guān)注開發(fā)者體驗(yàn)等核心競(jìng)爭(zhēng)力上的卓越表現(xiàn),是促使 StarRocks 以僅一歲多的社區(qū)年齡就火速上榜的主要原因。
報(bào)告調(diào)研的開源大數(shù)據(jù)項(xiàng)目覆蓋 8 個(gè)類別,其中數(shù)據(jù)查詢與分析連續(xù) 8 年位于熱力值榜首。這一領(lǐng)域是大數(shù)據(jù)兵家多爭(zhēng)之地,競(jìng)爭(zhēng)帶來的生態(tài)繁榮也促使 StarRocks等項(xiàng)目獲得了更多的技術(shù)熱度。
(數(shù)據(jù)查詢與分析領(lǐng)域的熱力增速排行)
解決用戶痛點(diǎn)、持續(xù)關(guān)注開發(fā)者體驗(yàn)是熱力核心
把解決用戶痛點(diǎn)作為核心競(jìng)爭(zhēng)力、持續(xù)關(guān)注開發(fā)者體驗(yàn),是 StarRocks 等上榜 TOP30 開源項(xiàng)目的共同特征,這些特征保證它們與時(shí)俱進(jìn),成為熱力趨勢(shì)中的 “常青樹”或“黑馬”。
過去的一年多時(shí)間里,StarRocks 共發(fā)布了超過 50 個(gè)大小版本,維持著兩個(gè)月一大版本,每周一小版本的速度快速迭代。每一次的產(chǎn)品更新與迭代,均來自用戶、社區(qū)開發(fā)者和 PMC 們共同的打磨和助力。
以存算分離這一痛點(diǎn)為例,StarRocks PMC 趙恒談到,在與行業(yè)用戶的深度交互中發(fā)現(xiàn),當(dāng)前的云原生數(shù)據(jù)倉(cāng)庫(kù)大多沒有很好處理實(shí)時(shí)的問題,StarRocks 的云原生架構(gòu)在傳統(tǒng)的設(shè)計(jì)基礎(chǔ)上結(jié)合自身高性能的實(shí)時(shí)更新存儲(chǔ)引擎,實(shí)現(xiàn)了實(shí)時(shí)數(shù)據(jù)分析和 Lakehouse 的統(tǒng)一 。
(熱力值 TOP30 開源項(xiàng)目)
在圓桌中,趙恒從社區(qū)治理和社區(qū)運(yùn)營(yíng)的兩個(gè)維度分享了 StarRocks “極速”提升熱力值的心得方法。
從社區(qū)治理的角度:
一是治理模型和規(guī)則應(yīng)該簡(jiǎn)單,簡(jiǎn)單才能持久地推動(dòng),StarRocks 只專注在幾個(gè)大方向。一般貢獻(xiàn)者參與社區(qū)會(huì)關(guān)注兩個(gè)核心問題:一是他們能為社區(qū)做什么,再來是他們?cè)趺床拍茏龅较胱龅氖。因此清楚定義社區(qū)中的角色,像是 Contributor、Committer、PMC 等角色和晉升規(guī)則,讓開發(fā)者知道通過哪些努力能獲得更大的社區(qū)影響力很重要。
二是降級(jí)參與門檻:維護(hù)良好的文檔、創(chuàng)建新人輔導(dǎo)機(jī)制等都是讓新手能快速加入社區(qū)的關(guān)鍵。StarRocks 社區(qū)之前也舉辦過好幾期面向新手的 StarRocks 極客營(yíng)活動(dòng),活動(dòng)中會(huì)有負(fù)責(zé)導(dǎo)師帶著入門,很多開發(fā)者都是借由這系列的活動(dòng)第一次接觸到數(shù)據(jù)庫(kù)的開發(fā)工作。
三是吸引更多的高手:社區(qū)里有形形色色的開發(fā)者,為了讓開發(fā)者能在自己感興趣的領(lǐng)域貢獻(xiàn)價(jià)值和提升自身的技術(shù)能力,StarRocks 創(chuàng)建了 DLA (數(shù)據(jù)湖分析)、Cloud Native、MV 等興趣小組,吸引領(lǐng)域高手和對(duì)此領(lǐng)域有特殊興趣的人來加入貢獻(xiàn)。
四是多樣的貢獻(xiàn)方式:社區(qū)不止于代碼,一個(gè)社區(qū)健康成長(zhǎng)需要多樣的共建伙伴,因此 StarRocks 也鼓勵(lì)成員積極參與討論、幫助新用戶更好地使用 StarRocks 或是參與對(duì)外宣講等,并會(huì)對(duì)作出積極貢獻(xiàn)的成員授予社區(qū)大使頭銜。
從社區(qū)運(yùn)營(yíng)的角度:
雖然治理模型和規(guī)則應(yīng)該簡(jiǎn)單,但是社區(qū)運(yùn)營(yíng)推廣應(yīng)該越豐富越好。針對(duì)用戶進(jìn)行不同維度的賦能,包括產(chǎn)品、案例、技術(shù)、最佳技術(shù)實(shí)踐的分享;與上下游合作伙伴做兼容適配,聯(lián)合推廣實(shí)踐,引發(fā)越來越多的關(guān)注和使用;而后越來越多的用戶自發(fā)提 Issue,自發(fā)推薦給其他用戶。目前 StarRocks 上千個(gè)用戶里,有很多都是口口相傳吸引而來。
基于自身的深度社區(qū)經(jīng)驗(yàn),StarRocks Active Contributor、Apache Hudi Contributor、華米科技高級(jí)大數(shù)據(jù)工程師徐昱分享了對(duì)活躍度的看法:“技術(shù)本身是為業(yè)務(wù)服務(wù)的。在沒有破壞整體項(xiàng)目設(shè)計(jì)原則的基礎(chǔ)上,活躍度偏低的社區(qū)可以更積極地反饋用戶 Issue、投入一些合理的PR等,這都能有效提高社區(qū)開發(fā)者的貢獻(xiàn)熱情!
開源大數(shù)據(jù)的“摩爾定律”,極速統(tǒng)一3.0時(shí)代來臨
報(bào)告發(fā)現(xiàn),每隔 40 個(gè)月,熱力值會(huì)提升 1 倍,開源大數(shù)據(jù)完成一輪技術(shù)迭代升級(jí),而且技術(shù)周期在加速縮短。在 8 年時(shí)間內(nèi),發(fā)生了多輪熱力變遷,反映出各項(xiàng)技術(shù)的更新?lián)Q代趨勢(shì)。
“增速代表的是趨勢(shì),說明它是在演繹未來。比如數(shù)據(jù)湖熱力值增速高,背后的趨勢(shì)是存儲(chǔ)一體化;云原生數(shù)據(jù)集成逐年翻倍,背后是云原生正在大規(guī)模重構(gòu)開源技術(shù)棧! 趙恒表示,就像 StarRocks 所處的數(shù)據(jù)查詢與分析板塊,過去是流批一體,如今是湖倉(cāng)一體,技術(shù)和產(chǎn)業(yè)的共同演進(jìn)下,StarRocks 極速統(tǒng)一 3.0 的重點(diǎn)就是完善湖倉(cāng)融合。
“極速統(tǒng)一”是 StarRocks 于 2020 年基于企業(yè)級(jí)數(shù)據(jù)分析市場(chǎng)需求提出的范式。StarRocks 認(rèn)為,構(gòu)建新一代企業(yè)數(shù)據(jù)驅(qū)動(dòng)體系的核心是:用一套統(tǒng)一的體系來滿足企業(yè)多種數(shù)據(jù)分析場(chǎng)景的需求,讓更多的企業(yè)成員能夠同時(shí)更快、更靈活、更實(shí)時(shí)地分析數(shù)據(jù)。
權(quán)威機(jī)構(gòu)的研究也印證了 StarRocks 的現(xiàn)實(shí)判斷。IDC 預(yù)測(cè), 2024 年全球數(shù)倉(cāng)的市場(chǎng)規(guī)模將達(dá)到 297 億美元,2019-2024 年的年復(fù)合增長(zhǎng)率將達(dá)到12%; 2024 年,中國(guó)數(shù)倉(cāng)市場(chǎng)的規(guī)模是 168.5 億元,中國(guó)大數(shù)據(jù)平臺(tái)軟件市場(chǎng)規(guī)?傮w為 352.9 億元,中國(guó)分析型數(shù)據(jù)庫(kù)的整體市場(chǎng)將達(dá)到 521.4 億元,復(fù)合增長(zhǎng)率為 27.7%。
面對(duì)技術(shù)周期和市場(chǎng)規(guī)模的雙重增速,為了給用戶提供更快、更靈活、更實(shí)時(shí)的分析體驗(yàn),StarRocks 在今年 9 月的年度社區(qū)峰會(huì)上發(fā)布極速統(tǒng)一 3.0,以使得用戶能夠在 StarRocks 上同時(shí)進(jìn)行極速分析與極速數(shù)據(jù)湖分析。StarRocks 認(rèn)為,極速數(shù)據(jù)湖分析就是為用戶提供性能堪比數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)湖分析。
“我們針對(duì)外表查詢性能做了優(yōu)化,支持查詢 Parquet 格式文件時(shí)延遲物化,提升小范圍過濾場(chǎng)景下的數(shù)據(jù)湖查詢性能。查詢數(shù)據(jù)湖時(shí),支持通過合并小型 I/O 以降低存儲(chǔ)系統(tǒng)的訪問延遲,進(jìn)而提升外表查詢性能。這些都是和社區(qū)用戶共同開發(fā)打磨出來的!壁w恒分享道。
關(guān)于 StarRocks
自 2020 年面世以來,專注于打造世界頂級(jí)的新一代極速全場(chǎng)景 MPP 數(shù)據(jù)庫(kù) StarRocks,幫助企業(yè)建立“極速統(tǒng)一”的數(shù)據(jù)分析新范式,助力企業(yè)全面數(shù)字化經(jīng)營(yíng)。當(dāng)前已經(jīng)幫助騰訊、攜程、順豐、Airbnb 、滴滴、京東、眾安保險(xiǎn)等超過 170 家大型用戶構(gòu)建了全新的數(shù)據(jù)分析能力,生產(chǎn)環(huán)境中穩(wěn)定運(yùn)行的 StarRocks 服務(wù)器數(shù)目達(dá)數(shù)千臺(tái)。
2021 年 9 月,StarRocks 源代碼開放。從那時(shí)起,StarRocks 的全球社區(qū)飛速成長(zhǎng),截止2022年11月,StarRocks項(xiàng)目在GitHub已經(jīng)超過3600顆星,活躍項(xiàng)目貢獻(xiàn)者超過百位,社群用戶突破7000人,吸引幾十家國(guó)內(nèi)外行業(yè)頭部企業(yè)參與共建。