Cloudera數據倉庫產品管理高級總監Bill Zhang
IDC調研中國數據顯示,在落地GenAI應用時,68%的企業認為需要梳理內部數據資產,66%的企業希望搭建數據湖等數據底座。開放式數據湖倉一體架構正迅速成為海量數據進行統一、多功能分析的標準架構。這種架構既融合了數據湖的靈活性和可擴展性,又具備數據倉庫的數據分析、治理和管理功能,為企業提供了強大的數據處理能力。開放表格式是這一架構的關鍵組成部分,它直接在數據湖存儲上提供了大量傳統數據倉庫的功能。目前,Apache Iceberg正迅速成為廠商和客戶的標準格式。
盡管Iceberg的諸多特性可大幅降低實現高性能數據視圖所需的工作量,但這些特性也帶來了額外的開銷,并且需要手動執行作業以優化性能和成本。為進一步簡化數據湖倉一體架構的管理,Cloudera推出了Cloudera Lakehouse Optimizer。該服務可智能化自動處理Iceberg表,使得許多維護作業能夠在后臺自動運行。下面,我們將詳細介紹Cloudera Lakehouse Optimizer的功能、優勢以及未來的發展方向。
Cloudera Lakehouse Optimizer的功能
Cloudera Lakehouse Optimizer根據用戶配置和Iceberg表統計數據,自動運行基于策略的Iceberg表優化任務。自動優化任務包括:
壓縮(Compaction):企業通常會通過微批處理(MicroBatching)或流式攝取(StreamingIngestion)等方式接收大量小文件,而讀取這些小文件會嚴重影響查詢性能。壓縮是將小文件合并為大文件以提升性能的過程。Cloudera Lakehouse Optimizer能夠自主判斷自動壓縮數據文件的最佳時機,確保用戶的表始終保持最佳性能。該服務還會根據使用模式優先優化高價值的表,確保每次優化都能帶來實際的投資回報。
表清理(Table Cleanup):隨著表的增長,往往會積累大量不再使用的數據文件、清單文件和快照。用戶通常需要執行表維護功能,例如清除過期快照、移除舊元數據文件以及清理孤立文件,以優化存儲利用率并提升性能。Cloudera Lakehouse Optimizer能夠自主判斷維護任務的最佳時機,確保表的存儲利用率最大化。
除了優化措施和基于策略的控制措施,Cloudera Lakehouse Optimizer還提供了優化任務的可觀測性,以幫助數據團隊清晰了解策略對表和存儲健康狀況及性能的影響。
Cloudera Lakehouse Optimizer的優勢
Cloudera Lakehouse Optimizer為使用Iceberg表的企業帶來了諸多優勢:
·通過優化存儲占用空間和減少查詢運行時間,降低總體擁有成本(TCO)。
·通過減少查詢中需要讀取的文件數量,提供高性能的數據視圖。
·通過自動執行一些繁瑣的湖倉維護任務,減少數據管理工作和開銷。
Cloudera內部基準測試表明,使用Cloudera Lakehouse Optimizer維護Iceberg表可顯著節約成本。實際效果因使用場景不同可能有所差異。
未來方向
對于想要轉向開放式數據湖倉一體架構的企業,Cloudera Lakehouse Optimizer當前推出的功能為他們解決了兩個重要難題。Cloudera的愿景是讓提供高性能的數據視圖變得更加容易,而這僅僅是實現這一愿景所邁出的第一步。未來,我們計劃增加對更多優化功能的支持,包括通過分區重組解決影響查詢性能的數據分布問題和查詢優化。
我們的目標是確保Cloudera成為管理和訪問Iceberg表的最佳平臺之一,同時讓企業更輕松地采用開放式數據湖倉一體架構。