近日,由開放原子開源基金會、X-lab 開放實驗室和阿里巴巴開源委員會聯合出品的《2022 開源大數據熱力報告》(以下簡稱“報告”)在云棲大會公布。新一代極速全場景 MPP 數據庫 StarRocks 榮登報告Top 30,并作為數據查詢與分析方向增速第一的項目出席了 11 月 17 日的報告圓桌討論會。
報告研究了“后 Hadoop 時代”最活躍的 102 個開源大數據項目,基于 2015 年至今的相關公開數據進行關聯分析,主要考察項目關注度、貢獻活躍度、協作關聯度和可持續發展的健康度,得出每個項目的熱力值。熱力值主要基于開源項目的每年新增 Star 數量、新增 Issue 數量、OpenRank值 等 3 個關鍵指標加權計算而來。在解決用戶痛點、持續關注開發者體驗等核心競爭力上的卓越表現,是促使 StarRocks 以僅一歲多的社區年齡就火速上榜的主要原因。
報告調研的開源大數據項目覆蓋 8 個類別,其中數據查詢與分析連續 8 年位于熱力值榜首。這一領域是大數據兵家多爭之地,競爭帶來的生態繁榮也促使 StarRocks等項目獲得了更多的技術熱度。

(數據查詢與分析領域的熱力增速排行)
解決用戶痛點、持續關注開發者體驗是熱力核心
把解決用戶痛點作為核心競爭力、持續關注開發者體驗,是 StarRocks 等上榜 TOP30 開源項目的共同特征,這些特征保證它們與時俱進,成為熱力趨勢中的 “常青樹”或“黑馬”。
過去的一年多時間里,StarRocks 共發布了超過 50 個大小版本,維持著兩個月一大版本,每周一小版本的速度快速迭代。每一次的產品更新與迭代,均來自用戶、社區開發者和 PMC 們共同的打磨和助力。
以存算分離這一痛點為例,StarRocks PMC 趙恒談到,在與行業用戶的深度交互中發現,當前的云原生數據倉庫大多沒有很好處理實時的問題,StarRocks 的云原生架構在傳統的設計基礎上結合自身高性能的實時更新存儲引擎,實現了實時數據分析和 Lakehouse 的統一 。

(熱力值 TOP30 開源項目)
在圓桌中,趙恒從社區治理和社區運營的兩個維度分享了 StarRocks “極速”提升熱力值的心得方法。
從社區治理的角度:
一是治理模型和規則應該簡單,簡單才能持久地推動,StarRocks 只專注在幾個大方向。一般貢獻者參與社區會關注兩個核心問題:一是他們能為社區做什么,再來是他們怎么才能做到想做的事。因此清楚定義社區中的角色,像是 Contributor、Committer、PMC 等角色和晉升規則,讓開發者知道通過哪些努力能獲得更大的社區影響力很重要。
二是降級參與門檻:維護良好的文檔、創建新人輔導機制等都是讓新手能快速加入社區的關鍵。StarRocks 社區之前也舉辦過好幾期面向新手的 StarRocks 極客營活動,活動中會有負責導師帶著入門,很多開發者都是借由這系列的活動第一次接觸到數據庫的開發工作。
三是吸引更多的高手:社區里有形形色色的開發者,為了讓開發者能在自己感興趣的領域貢獻價值和提升自身的技術能力,StarRocks 創建了 DLA (數據湖分析)、Cloud Native、MV 等興趣小組,吸引領域高手和對此領域有特殊興趣的人來加入貢獻。
四是多樣的貢獻方式:社區不止于代碼,一個社區健康成長需要多樣的共建伙伴,因此 StarRocks 也鼓勵成員積極參與討論、幫助新用戶更好地使用 StarRocks 或是參與對外宣講等,并會對作出積極貢獻的成員授予社區大使頭銜。
從社區運營的角度:
雖然治理模型和規則應該簡單,但是社區運營推廣應該越豐富越好。針對用戶進行不同維度的賦能,包括產品、案例、技術、最佳技術實踐的分享;與上下游合作伙伴做兼容適配,聯合推廣實踐,引發越來越多的關注和使用;而后越來越多的用戶自發提 Issue,自發推薦給其他用戶。目前 StarRocks 上千個用戶里,有很多都是口口相傳吸引而來。
基于自身的深度社區經驗,StarRocks Active Contributor、Apache Hudi Contributor、華米科技高級大數據工程師徐昱分享了對活躍度的看法:“技術本身是為業務服務的。在沒有破壞整體項目設計原則的基礎上,活躍度偏低的社區可以更積極地反饋用戶 Issue、投入一些合理的PR等,這都能有效提高社區開發者的貢獻熱情。”
開源大數據的“摩爾定律”,極速統一3.0時代來臨
報告發現,每隔 40 個月,熱力值會提升 1 倍,開源大數據完成一輪技術迭代升級,而且技術周期在加速縮短。在 8 年時間內,發生了多輪熱力變遷,反映出各項技術的更新換代趨勢。
“增速代表的是趨勢,說明它是在演繹未來。比如數據湖熱力值增速高,背后的趨勢是存儲一體化;云原生數據集成逐年翻倍,背后是云原生正在大規模重構開源技術棧。” 趙恒表示,就像 StarRocks 所處的數據查詢與分析板塊,過去是流批一體,如今是湖倉一體,技術和產業的共同演進下,StarRocks 極速統一 3.0 的重點就是完善湖倉融合。
“極速統一”是 StarRocks 于 2020 年基于企業級數據分析市場需求提出的范式。StarRocks 認為,構建新一代企業數據驅動體系的核心是:用一套統一的體系來滿足企業多種數據分析場景的需求,讓更多的企業成員能夠同時更快、更靈活、更實時地分析數據。
權威機構的研究也印證了 StarRocks 的現實判斷。IDC 預測, 2024 年全球數倉的市場規模將達到 297 億美元,2019-2024 年的年復合增長率將達到12%; 2024 年,中國數倉市場的規模是 168.5 億元,中國大數據平臺軟件市場規模總體為 352.9 億元,中國分析型數據庫的整體市場將達到 521.4 億元,復合增長率為 27.7%。
面對技術周期和市場規模的雙重增速,為了給用戶提供更快、更靈活、更實時的分析體驗,StarRocks 在今年 9 月的年度社區峰會上發布極速統一 3.0,以使得用戶能夠在 StarRocks 上同時進行極速分析與極速數據湖分析。StarRocks 認為,極速數據湖分析就是為用戶提供性能堪比數據倉庫的數據湖分析。
“我們針對外表查詢性能做了優化,支持查詢 Parquet 格式文件時延遲物化,提升小范圍過濾場景下的數據湖查詢性能。查詢數據湖時,支持通過合并小型 I/O 以降低存儲系統的訪問延遲,進而提升外表查詢性能。這些都是和社區用戶共同開發打磨出來的。”趙恒分享道。

關于 StarRocks
自 2020 年面世以來,專注于打造世界頂級的新一代極速全場景 MPP 數據庫 StarRocks,幫助企業建立“極速統一”的數據分析新范式,助力企業全面數字化經營。當前已經幫助騰訊、攜程、順豐、Airbnb 、滴滴、京東、眾安保險等超過 170 家大型用戶構建了全新的數據分析能力,生產環境中穩定運行的 StarRocks 服務器數目達數千臺。
2021 年 9 月,StarRocks 源代碼開放。從那時起,StarRocks 的全球社區飛速成長,截止2022年11月,StarRocks項目在GitHub已經超過3600顆星,活躍項目貢獻者超過百位,社群用戶突破7000人,吸引幾十家國內外行業頭部企業參與共建。