哈爾濱冬日的室外溫度動輒低至零下二十攝氏度,中國移動智算中心(哈爾濱)(以下簡稱“哈爾濱智算中心”)的展廳卻溫暖如春。
與其他地區的數據中心相比,哈爾濱智算中心具有獨特的溫度優勢。“數據中心是公認的‘耗能大戶’,但在哈爾濱,我們每年有157天不用空調降溫,將大幅減少智算中心降溫所需要的能耗。”在上述展廳里,中國移動通信集團(以下簡稱“中國移動”)黑龍江有限公司政企事業部經理郅剛告訴《證券日報》記者:“同時我們也對智算中心的熱能有精細化的二次利用,展廳的溫度以及整個園區的供暖都來自機房的免費的‘熱’。”
獨特的氣候優勢,讓全球運營商最大單集群智算中心落戶于此。如今,哈爾濱智算中心已經實現AI芯片100%國產化,首次通過國產網絡設備探索1.8萬張智算卡單集群部署規模上限,可提供6.93EFLOPS(每秒693億億次半精度浮點運算)智能算力,相當于300多萬臺高性能計算機的算力水平。
筑起“極致算力”
據介紹,哈爾濱智算中心的前身哈爾濱數據中心作為“四云合一”的數據中心,具備強大的數據處理和存儲功能,承載了中國移動用戶十億量級的行程碼數據;作為全國5G網絡東北大區的核心節點,這里還承擔著北京和河北地區的通信備份任務,在諸如冬奧會等重大活動期間,哈爾濱能夠提供與北京同等級別的通信保障;哈爾濱數據中心還匯聚了包括百度在線網絡技術(北京)有限公司、阿里巴巴集團控股有限公司、騰訊控股有限公司在內的120余家互聯網大廠的服務器。
“同時我們還具備強大的算力輸送能力。”郅剛表示,中國移動在哈爾濱建設了全國400G的OTN(光傳送網)省際骨干網,能夠實現地市之間1毫秒、省內5毫秒、全國20毫秒的信息傳輸速度,為算力“大腦”構建起高速運轉的“神經”。
在哈爾濱智算中心內部,一條寫著“大干兩個百天 奮力書寫智算領域自立自強的時代答卷”的紅色橫幅特別醒目。
在兩個“一百天”里,中國移動完成了哈爾濱數據中心邁向哈爾濱智算中心的轉型升級,完成3千多平方米高功耗機房重大調整改造,千萬級精密器件復雜施工;30多個單位、千余人的協同作戰,實現了提前4個月建成全球運營商最大單集群智算中心。
談及哈爾濱智算中心,郅剛用了“極致算力、極限組網、極效存儲、極速運維”幾個詞。“極致算力”指的是6.93EFLOPS智能算力;“極限組網”指的是采用國產46KW風冷網絡設備、構建最大規模兩級組網;“極效存儲”指的是采用大規模融合分級存儲,滿足大模型訓練時海量、多樣數據的高效處理和高吞吐要求;“極速運維”指的是通過制度、技術和標準三大措施,實現分鐘級故障定界定位和小時級模型斷點續訓,保障萬張AI加速卡長時間穩定并行訓練,為萬億模型訓練提供高性能、高可用、高可靠的算力底座。
“目前,中國移動九天千億參數模型已在集群上實現高效、長期穩定訓練。”郅剛表示。
國產化程度提升
哈爾濱智算中心中紅色橫幅提到的“智算領域的自立自強”,既體現在萬卡集群賦能國內AI產業發展上,也體現在AI芯片國產化率100%上。
“萬卡集群”是由超過一萬張加速卡(如GPU、TPU、NPU等專用AI芯片)組成的高性能計算系統,主要用于加速人工智能模型的訓練和推理。
“我們每臺機柜會安裝三臺全國產化算力服務器——昇騰智算服務器Atlas 800T A2,每臺服務器搭載4顆CPU芯片和8顆NPU芯片,每一顆NPU芯片提供376TFLOPS(每秒一萬億次浮點運算)算力,八顆NPU芯片一共能夠提供3PFLOPS(每秒一千萬億次浮點運算)算力,哈爾濱智算中心的服務器總數為2304臺,整體能夠保障6930PFLOPS高效穩定的算力輸出。”
值得一提的是,《證券日報》記者注意到,隨著技術、性能和生態建設上持續完善,我國AI芯片已經能夠實現與國際頂尖產品同臺競技。
2024年4月份,中國移動智算中心(呼和浩特)為彼時全球運營商最大單體智算中心,AI芯片國產化率超85%,智能算力規模高達6.7EFLOPS。四個月后,哈爾濱智算中心正式上線投產,AI芯片國產化率以及智能算力規模較中國移動智算中心(呼和浩特)均有增長。此外,政府為主導的城市智能計算中心多采用國產AI芯片。
談及萬卡集群智算中心國產化態勢,中昊芯英(杭州)科技有限公司首席解決方案架構師平曉峰表示,目前國內國產GPU芯片廠商與NPU、TPU等芯片廠商都在積極布局萬卡集群市場。
據平曉峰介紹,GPU芯片與NPU、TPU芯片各有千秋,均能充分滿足萬卡集群智算中心的算力需求。“GPU出現較早,最初用于圖像處理,因其高并行計算能力而在大模型出現的早期階段成了支撐模型計算的硬件選擇,但其功耗和成本較高。”平曉峰表示,“像以TPU為代表的AI芯片,則是專門針對AI大模型計算框架而設計,在AI智算場景中所表現出來的計算性能、算力利用率、能效比等更有優勢。”
“萬卡集群智算中心的國產化趨勢已經較為明顯。”平曉峰表示,智能算力建設邁入萬卡時代,算力需求旺盛,市場前景廣闊,預計國產AI芯片的蓬勃發展與萬卡集群智算中心的算力需求將實現相互成就。