綠色智算中心如何破解AI能耗困局
發布時間:
2024-06-08
在數字經濟的巨浪中,算力如水和電一樣,成為現代社會的生命線。掌握算力,就像握有通往人工智能世界的黃金船票。
目前,中國的算力發展正駛入快車道。截至2023年底,國內算力服務的機架數量達到810萬個,總規模位居全球第二。構建全國一體化的算力網絡,是迎接科技革命和產業變革新浪潮的關鍵一步。今年的政府工作報告中提到,2024年將超前布局數字基礎設施,加速打造全國一體化的算力架構。
然而,算力的飛速增長也帶來了電力的挑戰。據報道,全球數據中心的用電量將在四年內翻倍,從2022年的460太瓦時躍升至2026年的1050太瓦時,而在國內同樣面臨數據中心的用電量增長的境遇。
自“東數西算”工程實施以來,據報道,2022年,全國數據中心耗電量約占全社會用電量約3%。在比特與瓦特之間的供需矛盾中,近兩年來,人們開始呼吁算力與電力協同發展。隨著降低能耗的呼聲日益高漲,
業界對綠色算力的期待也在不斷增長。
智算中心的能源環保困境
AI模型的訓練和推理過程對計算資源的需求巨大,這直接導致了電力需求的激增和相應的碳排放。以GPT-3為例,擁有1750億個參數。訓練GPT-3需要大量的計算資源,使用了數千個GPU和數周的時間。據估計,訓練GPT-3的碳排放量相當于一輛汽車在其生命周期內(包括制造和行駛)的總碳排放。具體來說,大約需要數十萬度電,這對環境的影響是顯著的。
訓練大型神經網絡模型的時間、配置和能耗也因模型和訓練算法的效率而異。例如,優化模型的FLOP利用率(MFU)以及整體網絡和服務器的功率效率和使用情況都對能耗產生顯著影響。不同地區的電網碳強度差異,也會導致訓練同一模型產生的碳排放量有所不同。例如,法國60%的電力來自核電,電網碳強度僅為0.057 kg CO2e/kWh,遠低于美國的0.387 kg CO2e/kWh。

除了直接的能源消耗,智算中心還需考慮隱含排放,即制造和運輸計算設備所涉及的總碳排放量。盡管關于AI加速器芯片的隱含排放數據不多,但估計每個A100 GPU的隱含排放為150kg CO2,而一臺托管8個GPU的服務器的隱含排放為2500kg CO2。隱含排放約占訓練運行總排放量的8-10%。
智算中心的運營成本中,電力成本占據了相當大的比例。以一個典型的8個GPU的H100服務器為例,每月需要消耗10,200W的IT功率,電費成本約為4,406元(假設每千瓦時電價為0.6元)。隨著推理需求的不斷增加,這一成本還將進一步上升。
為了確保智算中心的正常運營,穩定且可靠的能源供應鏈至關重要。地緣政治和天氣干擾可能導致能源價格波動,因此,建立穩定的供應鏈以降低這種風險顯得尤為重要。此外,還需要具備快速提升燃料生產能力,從而迅速規劃大規模發電的能力。
破局之道
提高能源效率是降低智算成本的首要途徑。通過優化模型FLOP利用率(MFU),可以在不增加計算資源投入的情況下提高計算效率。此外,改進訓練算法和硬件架構也有助于降低功耗。
使用低碳能源是減少碳排放的有效手段。例如,法國在這方面做出了很好的示范,其60%的電力來自核電,大大降低了碳排放;而微軟通過采購清潔能源滿足人工智能和數數據中心不斷增長的需求,計劃到2030年在美國和歐洲建立10.5吉瓦的綠色產能;其他國家可以通過增加可再生能源的比重,如風能、太陽能等,來降低電網的碳強度。

綠色數據中心通過采用節能技術和設備,可以顯著降低能源消耗。例如,使用液冷技術代替傳統的風冷技術,可以提高散熱效率,減少空調系統的能耗。此外,合理的建筑設計和布局也有助于提高能源利用效率。
碳補償機制是一種通過購買碳信用來抵消碳排放的手段。智算中心可以通過投資可再生能源項目或植樹造林等方式,達到碳中和的目標。雖然這并不能從根本上解決問題,但可以在短期內緩解碳排放的壓力。
AI技術的發展不可逆轉,智算中心作為其核心支撐,將在未來扮演越來越重要的角色。降低智算成本不僅是企業的需求,更是國家科技發展的戰略任務。通過平衡訓練與推理的投入、優化能耗與碳排放、加強地區間的協同調度以及提升軟實力建設,這些措施將有利于綠色智算中心的能源之困的破局。
智算,大數據,解決方案
上一頁
下一頁
上一頁
下一頁