隨著大數據與云原生的快速發展融匯交互,各技術領域又將來臨新一波迅雷之勢的挑戰和創變。利用云原生技術的簡便快捷、動態調度、按需伸縮等優勢,如何加速大數據基礎軟件和系統的迭代更新頻率、確保整體環境的最終一致性,如何為數據庫提供極致的性能、彈性和無限擴展能力,以及由此帶來的運維模式轉型該如何應對,以上種種,都是我們當下需要率先突破的課題。
當下來看,不僅僅是技術上面的難題,很多企業依舊是使用的老一套大數據處理方案,但數據量日益增大,需求增多。傳統的數據中心無論是在性能、效率,還是在投資收益、安全性,已經遠遠不能滿足新興應用的需求,數據中心業務急需新型大數據處理中心來支撐。除了傳統的高可靠、高冗余、綠色節能之外,新型的大數據中心還需應具備虛擬化、模塊化、彈性擴展、自動化等一系列特征,才能滿足具備大數據特征的應用需求。這些史無前例的需求,讓存儲系統的架構和功能都發生了前所未有的變化。
對于企業來說,大數據方面的挑戰包括:
·業務部門無清晰的大數據需求
·企業內部數據孤島嚴重
·數據可用性低、質量差
·數據相關管理技術和架構問題
·數據安全問題
·大數據人才缺乏
·數據開放和隱私的權衡
要更快速的釋放數據價值,一套完善的方案和系統是關鍵。而這一領域的佼佼者便是華為云一站式大數據解決方案,頗受業界認可。本文就從傳統大數據解決方案和大數據的特點出發,來剖析為什么要選擇華為云的大數據解決方案。
一、海量數據處理方案
1.1 大數據存儲
1.1.1 傳統數據存儲
通常業務系統產生的大量日志,傳統的處理方式是采用集中存儲。集中存儲就是指有一臺大型主機或多臺主機組成中心節點,數據集中存儲于這個中心節點上,并且整個系統的所有業務單元都集中部署在這個中心節點上, 數據計算幾乎完全 依賴于一臺中、大型的中心計算機的處理能力。系統所有的功能均由其集中處理。在集中式系統中,每個終端或客戶端僅僅負責數據的錄入和輸出,而數據的存儲與控制處理完全交給主機來完成。集中式存儲最大的特點就是部署結構簡單。放在現在整個環境中,需要面臨以下考驗:
·系統安全性:需要對抗DDoS攻擊,傳統自建數據庫需要自行實現,且實現成本較高,同時也需自行修復數據庫安全漏洞。
·硬件成本:為了能部署數據庫,開發者需要購買費用高昂的數據庫服務器。一次性的硬件成本很高。而且考慮到硬件損耗,后期還會有維修和更換硬件的成本。
·運維成本:需要花費大量的人力物力來維護硬件、維護操作系統、維護數據庫軟件。
·可擴展性:傳統自建數據庫采用物理硬盤作為存儲空間,受單盤容量的限制,并不支持彈性升級,要增減節點,也比較難實現,如果某個數據庫超過了這個存儲的限制,需要運維和開發的人員一起進行數據歸檔,來降低數據庫容量。
·可靠性:單機實例,沒有數據災備。需要額外成本建立異地的數據災備。不管是主從架構、還是負載均衡還是自動容災方面,傳統自建數據庫都需要自行實現。
傳統數據庫或數倉產品面臨數據存不下、查不出、擴容難、成本高的痛點。因此,如何對整個傳統數據庫升級躍遷,是企業面臨的關鍵問題之一。
一方面是傳統數據庫不能滿足互聯網企業新需求;ヂ摼W企業因業務快速擴展,需實時處理海量數據,并發訪問量非常大。傳統數據庫基于專用服務器和高端存儲構成共享存儲環境,設備造價昂貴,且性能和擴展性極其有限,無法滿足互聯網行業對數據庫高并發、實時在線需求。
另一方面是傳統數據庫不能適應云計算技術新需求。云計算公司依托技術積累,發起由IOE架構向基于廉價PC服務器技術的變革,降低IT服務支出,倡導以軟件為中心的架構演變,降低數據庫維護升級的風險。傳統數據庫環境是集中在一個地點的高穩定、高可靠、高可用的高端企業級設備,制約云計算企業未來業務發展,增加長期運營成本。
傳統數據存儲面臨著以下四個問題:
·無法應對每秒上萬次的讀寫請求,硬盤IO此時也將變為性能瓶頸。
·表中存儲記錄數量有限,橫向可擴展能力有限,縱向數據可承受能力也是有限的,面對海量數據,勢必涉及到分庫分表,難以維護。大數據查詢SQL效率極低,數據量到達一定程度時,查詢時間會呈指數級別增長。
·難以橫向擴展,無法簡單地通過增加硬件、服務節點來提高系統性能。
·對于需要24小時不間斷提供服務的網站來說,數據庫升級、擴展將是一件十分麻煩的事,往往需要停機維護、數據遷移。為了避免服務間斷,如果網站使用服務器集群,則根據集群策略,需要相應的考慮主從一致性、集群擴展性等一系列問題。
那么結合現有的云原生技術和大數據技術,數據倉庫又該是何種形式呢?

1.1.2 云大數據倉庫
以華為云數據倉庫 GaussDB(DWS)新一代云數倉為例,GaussDB(DWS)作為新一代全場景數據倉庫,具備極致性能、高擴展、極簡易用、一站式分析等特性,滿足大數據時代企業構建新型數倉的需求。融合分析能力是云原生數據倉庫GaussDB(DWS)核心亮點之一。GaussDB(DWS)采用一套SQL引擎,支持Oracle、Mysql、HDFS等多源數據融合分析,并通過算子下推、加速集群等技術對分析性能進行了大幅優化,在數據免搬遷的前提下,實現了跨源數據免搬遷、高效分析。

能夠在運行時進行按需擴展的能力是任何企業成長的先決條件。因為這種能力讓企業可以專注于追求商業目標,而不用擔心存儲空間大小的限制。傳統數據庫將所有文件和資源都存儲在同一主機中,而云原生數據庫GaussDB則不同,它不僅允許你以不同的方式存儲,而且不受存儲空間問題的影響。
比如我們從MySQL數據庫數據遷移至GaussDB:
1、導出mysql數據

1、下載數據并上傳至GaussDB服務器
2、導入GaussDB

可見遷移十分便捷。GaussDB 提供配套的遷移工具,支持使用dump和load將數據庫中的數據導出成標準化通用文件,可使用GaussDB的 load導入Oracle、MySQL、SQLserver等數據庫導出的文件,同時也可以使用dump導出GaussDB的數據,然后導入到其他數據庫或者其他GaussDB數據庫。可支持Teradata、Oracle/Exadata、Greenplum等數據分析系統的平滑遷移,而且支持SQL 2003標準,兼容Oracle/Teradata的部分語法和數據結構,支持全局事務、存儲過程、數據強一致性保證。且GaussDB庫倉一體,邏輯集群,支持一套集群容納數據集市、數據倉庫。
GaussDB(DWS)云原生數據倉庫支持冷熱數據多溫存儲,熱數據存儲于數倉內部,以獲得良好的查詢分析性能,冷數據可分級存儲到更低成本的OBS中。不僅降低存儲成本,并且在OBS內,通過合法鑒權,數據能夠共享開放,供其他引擎處理分析。GaussDB(DWS)當前已經支持表內不同分區間的冷熱數據存儲,未來還將支持更細粒度、更加智能的冷熱數據管理。

企業積累的海量數據及各種數據資產,體量龐大,需高性能大數據平臺支撐進行全量數據分析和挖掘。企業可以依托DWS+BI工具打造全局的、直觀的、關聯性的、可視化的運營數字化分析平臺 ,以數據分析來驅動業務價值提升及管理提升。

以國內某知名保險客戶的商業數據庫遷移為例。首先是要求高性能,客戶上線業務為保險核心業務,這塊業務需要數據庫具備高并發、大表查詢的能力,尤其是對接互聯網和渠道的業務,對數據庫性能要求很高。在保單的批量下單場景方面,GaussDB(for MySQL)憑借其優秀的性能完美支撐業務核心交易場景。
而且GaussDB跨AZ部署高可用,數據安全可靠。這個特性無論是在國內,還是與海外友商相比都是領先的,它能做到跨3AZ部署,任何一個節點故障都不會對業務帶來致命影響。故障切換速度做到10秒以內,做到數據零丟失,采用白名單、VPC網絡、數據多副本存儲等全方位的手段,對數據庫數據訪問、存儲、管理等各個環節提供安全保障。且GaussDB能夠快速備份恢復,采用快照的方式,相比傳統MySQL物理備份,整個恢復時間加快了數倍;诘讓哟鎯ο到y的多時間點特性,不需增量日志回放,可直接實現按時間點回滾。備份及恢復邏輯下沉到各存儲節點,本地訪問數據并直接與第三方存儲系統交互,實現高并發、高性能。

針對實時檢索、復雜BI SQL定制并行查詢功能,開啟后同樣多表關聯查詢速度提升10+ 倍。
1.2 大數據BI快速展示
既然談到了大數據BI這條業務線那就把他講到底。
1.2.1大數據BI產業鏈結構分析
大數據BI產業鏈結構總體上由數據源、數據獲取、數據處理、數據分析以及數據展現五個方面構成。
第一、從數據來源角度
大數據應用的數據來源,不僅僅包括非結構化的數據,還有各種系統數據、數據庫數據。其中非結構化數據主要是集中在互聯網以及一些社交網站上的數據和一些機器設備的數據,這些都構成了大數據應用的數據來源。對于大數據的分析工具來說,現階段對非結構化的數據分析的比較多。
BI系統則是在數據集成方面的技術越來越成熟。對于數據的提取和各種數據挖掘來說,數據集成平臺會幫助企業實現數據的流通和交互使用,在企業內部實施BI應用就是為了可以更好地對數據進行分享和使用。
其中數據源由企業內部數據和外部數據構成。企業的內部數據通常與具體業務緊密相關,且多數來自我們可以掌控的軟件系統,如CRM、ERP或者HR系統。ETL負責將數據源中的數據抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫中,成為聯機分析處理、數據挖掘的基礎。最后通過數據展現工具對數據進行可視化分析,滿足各種應用需求。多數企業對大數據BI平臺數據權限管控、探索式自主分析以及快速搭建業務數據模型等功能有著強烈需求,這幾種功能被選擇的比例高達90%以上;
第二、從發展方向角度
BI的發展要從傳統的商務智能模式開始轉換。對于企業來說,BI不僅僅是一個IT項目,更是一種管理和思維的方式,從技術的部署到業務的流程規劃,BI正在迎來新的發展。對于大數據來說,現階段更多的大數據關注在非結構化數據,不同的數據分析工具的出現和行業內的應用范圍不斷的加大。對于大數據應用來說,怎么與應用的行業進行深層次的結合才是最重要的。
第三、從工具的角度
傳統BI使用的是ETL、數據倉庫、OLAP、可視化報表技術,屬于應用和展示層技術,目前都處于淘汰的邊緣。因為它們解決不了海量數據(包括結構化與非結構化)的處理問題。而大數據應用的是一個完整的技術體系,包括用Hadoop、流處理等技術解決海量的結構化、非結構化數據的ETL問題,用Hadoop、MPP等技術解決海量數據的計算問題,用redis、HBASE等方式解決高效讀的問題,用Impala等技術解決在線分析等問題。
1.2.2 華為云一站式大數據BI方案
基于華為云數據倉庫服務GaussDB(DWS)及基礎服務,華為云一站式大數據BI可以5分鐘完成自動化報表制作,可輕松打通多個業務系統數據,整合多源數據,構建企業級可視化分析決策平臺。通過類Excel的設計器一鍵連接數據源,拖拽字段綁定單元格,報表即可完成制作。學習成本低,產品上手快,操作簡便、快速,總結起來就是“易學易用易集成”。
方案優勢:
1、一站式
一站式大數據分析平臺,包括數據采集、清洗、整合、存儲、計算、建模、訓練、展現、協作等,一個平臺上完成全流程數據分析任務。
2、高性能
利用列存儲和內存計算,實現海量數據秒級響應。AI深度分析集成多種算法,挖掘潛在價值關系、模式和趨勢,構建數據模型,做出業務預測與洞察。
3、極致易用
上線周期以周為單位,平臺支持全部云端OS,支持公有云、私有云和混合云架構。操作簡單,業務人員也能輕松、快速地制作并分析數據報告。
4、移動跨屏
無縫支持各種電腦和手機終端系統,并在這些終端設備上保持一致、易用的用戶體驗,隨時隨地通過移動設備進行數據分析。

數字化轉型的最終目的并非是獲得數據,而是挖掘數據的價值,實現數據驅動業務增長。華為云大數據BI解決方案定位于“面向業務人員的可視化分析”工具,讓零基礎的業務人員也能自主完成數據進行分析、挖掘與洞察,讓數據真正走進業務,推動業務增長,實現降本增效。

華為云數據可視化DLV服務一站式適配云上云下多種數據源,提供豐富多樣的2D、3D可視化組件,采用拖拽式自由布局,旨在幫助快速定制和應用屬于自己的數據大屏。目前華為云還提供數據可視化DLV的基礎版免費試用機會,可在華為云官網申請體驗。

華為云數據可視化DLV具備如下優勢:
1.豐富多樣的可視化組件
提供豐富的可視化組件,包括常用的數據圖表、圖形、控件等
2.專業級地理信息可視化
支持繪制地理軌跡、地理飛線、熱力分布、地域區塊、3D地球等效果,支持地理數據多層疊加
3.可視化編輯器
拖拽即可完成組件自由配置與布局、所見即所得,無需編程就能輕松搭建可視化大屏,并且依據投放設備分辨率,自由定制大屏尺寸
4.多種數據源支持
無縫集成華為云數據倉庫服務、數據湖探索服務、關系型數據庫、對象存儲服務等,支持本地CSV、在線API及企業內部私有云數據



通過以上案例,我們不難發現,華為云大數據BI通過多維度的數據統計方式,能更加深入地了解到消費者的消費行為模式及趨勢。作為一種新興科技應用場景,大數據BI正在成為未來智慧商業發展的重要方向之一,也將給傳統商業帶來革命性變革。
隨著新經濟時代的到來,越來越多的人開始意識到“數字經濟”所具有的巨大潛力,而大數據正是其中最關鍵的一環,華為云以資源多與技術強的優勢,能夠更好地為客戶提供差異化定制化服務,提升企業市場競爭力,獲取更大市場份額。
剛好華為云的雙11活動還在繼續,截止到11月30日,訪問華為云官網活動頁面就可領取10000元的滿減紅包:

還有數據庫、服務器、云安全等產品也有非常給力的優惠,快點入手操作起來吧!