年耗電超過三峽大壩發(fā)電,數(shù)據(jù)中心節(jié)能提上議程
每到廠商發(fā)布服務(wù)器硬件時,都會用可觀的性能提升圖表來吸引客戶,然而事實是,無論是服務(wù)器CPU、GPU還是內(nèi)存,其功耗都是在大幅增加的。以英偉達的數(shù)據(jù)中心GPU為例,目前最普及的A100 GPU功耗在250W到300W,而新公布的H100 GPU功耗已經(jīng)翻倍至700W。
在如此高的功耗下,早在2017年,國內(nèi)數(shù)據(jù)中心的年度耗電量就已經(jīng)超過1000億千瓦時,也超過了三峽大壩的發(fā)電量。更可怕的是,這個數(shù)字還在一直攀升,目前數(shù)據(jù)中心用電量已經(jīng)占了全社會耗電量的1.5%到2%左右了。
每年近一半浪費,中國開始數(shù)據(jù)中心改革
在數(shù)據(jù)中心的能效指標中,最重要的就是數(shù)據(jù)中心電能利用效率,也就是PUE。PUE代表了IT設(shè)備占總耗電的比值,這個指標越接近1,也就意味著制冷、供配電等非IT設(shè)備的耗能占比越低。
2021年7月,工信部印發(fā)了《新型數(shù)據(jù)中心發(fā)展三年行動計劃(2021-2023)》,其中對數(shù)據(jù)中心的能效和算力做了規(guī)劃,目標是在2021年底全國數(shù)據(jù)中心平均利用率爭取提升到55%以上,總算力超過120EFLOPS,新建大型及以上數(shù)據(jù)中心PUE降低到1.35以下。
而此次三年行動的最終目標是將平均利用率提升到60%以上,總算力超過200EFLOPS,新建大型及以上數(shù)據(jù)中心PUE降低到1.3以下,更容易控制散熱功耗的嚴寒與寒冷地區(qū)爭取降低到1.25以下。
可以看出早在這一計劃提出前,我國的數(shù)據(jù)中心平均利用率是不及55%,這意味著在全中國的數(shù)據(jù)中心運維成本中,有45%是完全被浪費掉了,如果能將整體利用率提升至目標中說的60%,
但事實上,如果只是控制大型及以上數(shù)據(jù)中心的PUE,很難起到整體提高能效的作用,固然在全年耗電量中大型和超大型數(shù)據(jù)中心占了很大一部分,但這些項目通常都是經(jīng)過云服務(wù)企業(yè)、政府審批的,往往早在立項之初就考慮到了能效。但中小型數(shù)據(jù)中心的亂象才是最難解決的問題,雖然行動計劃給出了改造升級“老舊小散”數(shù)據(jù)中心的任務(wù),但這類任務(wù)畢竟不比老舊建筑改造,需要考慮的因素也更加復(fù)雜。
還有一點需要關(guān)注,那就是數(shù)據(jù)中心的利用率的提升其實并沒有那么容易,尤其是某些云服務(wù)廠商的數(shù)據(jù)中心。云服務(wù)講究的是按需收費,所以云服務(wù)廠商往往都會在資源利用上都會留有余地。固然我們可以利用大量共享硬件的實例提高利用率,但這難免會對云應(yīng)用的性能造成影響,顯現(xiàn)在我們的日常應(yīng)用上就是軟件響應(yīng)時間變長、搶購商品崩潰或是視頻碼率降低等。
但我們沒法對沒有利用上的服務(wù)器想關(guān)就關(guān),且不說開關(guān)本身消耗的電能,這種頻繁操作對于數(shù)據(jù)中心另一個昂貴的硬件資源,存儲,也會造成嚴重磨損。所以,如何在留有余地的同時,動態(tài)調(diào)整能耗,并充分利用分布式計算,才是這些數(shù)據(jù)中心需要突破的。
氮化鎵拯救數(shù)據(jù)中心電源的效率
除了提高IT硬件本身的能效比之外,還有一種思路就是從數(shù)據(jù)中心的PSU電源上下手。PSU負責將輸入的交流電轉(zhuǎn)化為直流電,但就是這樣一個電能轉(zhuǎn)換裝置,卻占據(jù)了近1/4的耗電量,僅次于CPU等IT器件。正因如此,不少PSU廠商開始在其產(chǎn)品中利用新的電源技術(shù),比如寬禁帶材料氮化鎵。
目前PSU追求的都是80 Plus這一推薦能效標準,這一標準規(guī)定了在額定負載的20%、50%和100%下,都要擁有80%以上的能效。而要想達到80 Plus Titanium,這一標準PSU在不同負載下的能效要做到超過90%。傳統(tǒng)的硅超結(jié)MOSFET方案,固然也有做到90%以上的方案,但這每提升1%,對大型數(shù)據(jù)中心而言就意味著可觀的能耗減少,況且傳統(tǒng)硅基方案在低負載下的高效能存在挑戰(zhàn),而不用說功率密度難以堆上去了。
氮化鎵PSU與硅基PSU功率密度和能效對比/GaN Systems
而在利用氮化鎵這一技術(shù)后,其功率密度可以輕松達到100W/in3,能效達到95%以上。這樣一來,數(shù)據(jù)中心可以在保證機架高度不變的情況下,用上更小的PSU電源模塊,多出來的空間可以加裝更多的DIMM內(nèi)存,甚至是CPU。
既然氮化鎵能做到如此高的能效,那么同為寬禁帶材料的碳化硅是否也能勝任呢?如果單從能效的角度來說,擁有更低導(dǎo)通電阻和更快開關(guān)速度的氮化鎵還是要更勝一籌,這也是為何無論是不少寬禁帶半導(dǎo)體廠商,比如英飛凌、安森美、GaN Systems,相繼在PSU上推出氮化鎵解決方案的原因。
結(jié)論
在數(shù)據(jù)中心提高能效的這條路上,除了規(guī)范標準和提高PSU或UPS這些電源模塊的能效外,發(fā)展新型冷卻技術(shù)也是另一種高效的方法,尤其是在數(shù)據(jù)中心的計算密度越來越大的情況下,水下數(shù)據(jù)中心就是一種可以嘗試的應(yīng)用場景。與此同時,能源本身的管理也與數(shù)據(jù)中心息息相關(guān),就拿智能電網(wǎng)技術(shù)來說,這一技術(shù)的發(fā)展可以進一步降低數(shù)據(jù)中心的運營成本和能耗,但智能電網(wǎng)的數(shù)據(jù)分析和優(yōu)化本身,也需要靠數(shù)據(jù)中心的支持。