1. 數據中心電能使用EEUE分析
世界能源委員會1995年對能源效率的定義為:減少提供同等能源服務的能源投入。對於能耗居高不下的數據中心,研究提高能源效率具有深遠的社會效益和經濟效益。除了能源效率之外,數據中心還有多項其他性能指標,按照國際標准組織ISO的定義統稱為關鍵性能指標,或稱為關鍵績效指標,研究這些指標對於數據中心同樣具有十分重要的意義。
在已經頒布的數據中心性能指標中最常見的是電能使用效率PUE。在我國,PUE不但是數據中心研究、設計、設備製造、建設和運維人員最為熟悉的數據中心能源效率指標,也是政府評價數據中心工程性能的主要指標。
除了PUE之外,2007年以後還出台了多項性能指標,雖然知名度遠不及PUE,但是在評定數據中心的性能方面也有一定的參考價值,值得關注和研究。PUE在國際上一直是眾說紛紜、莫衷一是的一項指標,2015年ASHRAE公開宣布,ASHRAE標准今後不再採用PUE這一指標,並於2016年下半年頒布了ASHRAE 90.4標准,提出了新的能源效率;綠色網格組織(TGG)也相繼推出了新的能源性能指標。對PUE和數據中心性能指標的討論一直是國際數據中心界的熱門議題。
鑒於性能指標對於數據中心的重要性、國內與國際在這方面存在的差距,以及在採用PUE指標過程中存在的問題,有必要對數據中心的各項性能指標,尤其是對PUE進行深入地研究和討論。
1.性能指標
ISO給出的關鍵性能指標的定義為:表示資源使用效率值或是給定系統的效率。數據中心的性能指標從2007年開始受到了世界各國的高度重視,相繼推出了數十個性能指標。2015年之後,數據中心性能指標出現了較大變化,一系列新的性能指標相繼被推出,再度引發了國際數據中心界對數據中心的性能指標,尤其是對能源效率的關注,並展開了廣泛的討論。
2.PUE
2.1PUE和衍生效率的定義和計算方法
2.1.1電能使用效率PUE
TGG和ASHRAE給出的PUE的定義相同:數據中心總能耗Et與IT設備能耗之比。
GB/T32910.3—2016給出的EEUE的定義為:數據中心總電能消耗與信息設備電能消耗之間的比值。其定義與PUE相同,不同的是把國際上通用的PUE(powerusage effectiveness)改成了EEUE(electricenergy usage effectiveness)。國內IT界和暖通空調界不少專業人士對於這一變更提出了不同的看法,根據Malone等人最初對PUE的定義,Et應為市電公用電表所測量的設備總功率,這里的Et就是通常所說的數據中心總的設備耗電量,與GB/T32910.3—2016所規定的Et應為採用電能計量儀表測量的數據中心總電能消耗的說法相同。筆者曾向ASHRAE有關權威人士咨詢過,他們認為如果要將「power」用「electricenergy」來替代,則採用「electricenergy consumption」(耗電量)更准確。顯然這一變更不利於國際交流。雖然這只是一個英文縮寫詞的變更,但因為涉及到專業術語,值得商榷。
ISO給出的PUE的定義略有不同:計算、測量和評估在同一時期數據中心總能耗與IT設備能耗之比。
2.1.2部分電能使用效率pPUE
TGG和ASHRAE給出的pPUE的定義相同:某區間內數據中心總能耗與該區間內IT設備能耗之比。
區間(zone)或范圍( boundary)可以是實體,如集裝箱、房間、模塊或建築物,也可以是邏輯上的邊界,如設備,或對數據中心有意義的邊界。
ISO給出的pPUE的定義有所不同:某子系統內數據中心總能耗與IT設備總能耗之比。這里的「子系統」是指數據中心中某一部分耗能的基礎設施組件,而且其能源效率是需要統計的,目前數據中心中典型的子系統是配電系統、網路設備和供冷系統。
2.1.3設計電能使用效率dPUE
ASHRAE之所以在其標准中去除了PUE指標,其中一個主要原因是ASHRAE認為PUE不適合在數據中心設計階段使用。為此ISO給出了設計電能使用效率dPUE,其定義為:由數據中心設計目標確定的預期PUE。
數據中心的能源效率可以根據以下條件在設計階段加以預測:1)用戶增長情況和期望值;2)能耗增加或減少的時間表。dPUE表示由設計人員定義的以最佳運行模式為基礎的能耗目標,應考慮到由於數據中心所處地理位置不同而導致的氣象參數(室外干球溫度和濕度)的變化。
2.1.4期間電能使用效率iPUE
ISO給出的期間電能使用效率iPUE的定義為:在指定時間測得的PUE,非全年值。
2.1.5電能使用效率實測值EEUE-R
GB/T32910.3—2016給出的EEUE-R的定義為:根據數據中心各組成部分電能消耗測量值直接得出的數據中心電能使用效率。使用EEUE-R時應採用EEUE-Ra方式標明,其中a用以表明EEUE-R的覆蓋時間周期,可以是年、月、周。
2.1.6電能使用效率修正值EEUE-X
GB/T32910.3—2016給出的EEUE-X的定義為:考慮採用的製冷技術、負荷使用率、數據中心等級、所處地域氣候環境不同產生的差異,而用於調整電能使用率實測值以補償其系統差異的數值。
2.1.7採用不同能源的PUE計算方法
數據中心通常採用的能源為電力,當採用其他能源時,計算PUE時需要採用能源轉換系數加以修正。不同能源的轉換系數修正是評估數據中心的一次能源使用量或燃料消耗量的一種方法,其目的是確保數據中心購買的不同形式的能源(如電、天然氣、冷水)可以進行公平地比較。例如,如果一個數據中心購買當地公用事業公司提供的冷水,而另一個數據中心採用由電力生產的冷水,這就需要有一個系數能使得所使用的能源在相同的單位下進行比較,這個系數被稱為能源轉換系數,它是一個用來反映數據中心總的燃料消耗的系數。當數據中心除採用市電外,還使用一部分其他能源時,就需要對這種能源進行修正。
2.1.8PUE和EEUE計算方法的比較
如果僅從定義來看,PUE和EEUE的計算方法十分簡單,且完全相同。但是當考慮到計算條件的不同,需要對電能使用效率進行修正時,2種效率的計算方法則有所不同。
1)PUE已考慮到使用不同能源時的影響,並給出了修正值和計算方法;GB/T32910.3—2016未包括可再生能源利用率,按照計劃這一部分將在GB/T32910.4《可再生能源利用率》中說明。
2)PUE還有若干衍生能源效率指標可供參考,其中ISO提出的dPUE彌補了傳統PUE的不足;EEUE則有類似於iPUE的指標EEUE-Ra。
3)EEUE分級(見表1)與PUE分級(見表2)不同。
4)EEUE同時考慮了安全等級、所處氣候環境、空調製冷形式和IT設備負荷使用率的影響。ASHRAE最初給出了19個氣候區的PUE最大限值,由於PUE已從ASHRAE標准中去除,所以目前的PUE未考慮氣候的影響;ISO在計算dPUE時,要求考慮氣候的影響,但是如何考慮未加說明;PUE也未考慮空調製冷形式和負荷使用率的影響,其中IT設備負荷率的影響較大,應加以考慮。
2.2.PUE和EEUE的測量位置和測量方法
2.2.1PUE的測量位置和測量方法
根據IT設備測點位置的不同,PUE被分成3個類別,即PUE1初級(提供能源性能數據的基本評價)、PUE2中級(提供能源性能數據的中級評價)、PUE3高級(提供能源性能數據的高級評價)。
PUE1初級:在UPS設備輸出端測量IT負載,可以通過UPS前面板、UPS輸出的電能表以及公共UPS輸出匯流排的單一電表(對於多個UPS模塊而言)讀取。在數據中心供電、散熱、調節溫度的電氣和製冷設備的供電電網入口處測量進入數據中心的總能量。基本監控要求每月至少採集一次電能數據,測量過程中通常需要一些人工參與。
PUE2中級:通常在數據中心配電單元前面板或配電單元變壓器二次側的電能表讀取,也可以進行單獨的支路測量。從數據中心的電網入口處測量總能量,按照中等標準的檢測要求進行能耗測量,要求每天至少採集一次電能數據。與初級相比,人工參與較少,以電子形式採集數據為主,可以實時記錄數據,預判未來的趨勢走向。
PUE3高級:通過監控帶電能表的機架配電單元(即機架式電源插座)或IT設備,測量數據中心每台IT設備的負載(應該扣除非IT負載)。在數據中心供電的電網入口處測量總能量,按照高標準的檢測要求進行能耗測量,要求至少每隔15min採集一次電能數據。在採集和記錄數據時不應該有人工參與,通過自動化系統實時採集數據,並支持數據的廣泛存儲和趨勢分析。所面臨的挑戰是以簡單的方式採集數據,滿足各種要求,最終獲取數據中心的各種能量數據。
對於初級和中級測量流程,建議在一天的相同時間段測量,數據中心的負載盡量與上次測量時保持一致,進行每周對比時,測量時間應保持不變(例如每周周三)。
2.2.2EEUE的測量位置和測量方法
1)Et測量位置在變壓器低壓側,即A點;
2)當PDU無隔離變壓器時,EIT測量位置在UPS輸出端,即B點;
3)當PDU帶隔離變壓器時,EIT測量位置在PDU輸出端,即C點;
4)大型數據中心宜對各主要系統的耗電量分別計量,即E1,E2,E3點;
5)柴油發電機饋電迴路的電能應計入Et,即A1點;
6)當採用機櫃風扇輔助降溫時,EIT測量位置應為IT負載供電迴路,即D點;
7)當EIT測量位置為UPS輸出端供電迴路,且UPS負載還包括UPS供電製冷、泵時,製冷、泵的能耗應從EIT中扣除,即扣除B1和B2點測得的電量。
2.2.3PUE和EEUE的測量位置和測量方法的差異
1)PUE的Et測量位置在電網輸入端、變電站之前。而GB/T32910.3—2016規定EEUE的Et測量位置在變壓器低壓側。數據中心的建設有2種模式:①數據中心建築單獨設置,變電站自用,大型和超大型數據中心一般採用這種模式;②數據中心置於建築物的某一部分,變電站共用,一般為小型或中型數據中心。由於供電局的收費都包括了變壓器的損失,所以為了准確計算EEUE,對於前一種模式,Et測量位置應該在變壓器的高壓側。
2)按照2.2.2節第6條,在計算EIT時,應減去機櫃風機的能耗。應該指出的是,機櫃風機不是輔助降溫設備,起到降溫作用的是來自空調設備的冷空氣,降溫的設備為空調換熱器,機櫃風機只是起到輔助傳輸冷風的作用,因此機櫃風機不應作為輔助降溫設備而計算其能耗。在GB/T32910.3徵求意見時就有人提出:機櫃風機的能耗很難測量,所以在實際工程中,計算PUE時,EIT均不會減去機櫃風機的能耗。在美國,計算PUE時,機櫃風機的能耗包括在EIT中。
3)PUE的測點明顯多於GB/T32910.3—2016規定的EEUE的測點。
2.3.PUE存在的問題
1)最近兩年國內外對以往所宣傳的PUE水平進行了澄清。我國PUE的真實水平也缺乏權威調查結果。GB/T32910.3—2016根據國內實際狀況,將一級節能型數據中心的EEUE放寬到1.0~1.6,其上限已經超過了國家有關部委提出的綠色數據中心PUE應低於1.5的要求,而二級比較節能型數據中心的EEUE規定為1.6~1.8,應該說這樣的規定比較符合國情。
2)數據中心總能耗Et的測量位置直接影響到PUE的大小,因此應根據數據中心建築物市電變壓器所承擔的荷載組成來決定其測量位置。
3)應考慮不同負荷率的影響。當負荷率低於30%時,不間斷電源UPS的效率會急劇下降,PUE值相應上升。對於租賃式數據中心,由於用戶的進入很難一步到位,所以數據中心開始運行後,在最初的一段時間內負荷率會較低,如果採用設計PUE,也就是滿負荷時的PUE來評價或驗收數據中心是不合理的。
4)數據中心的PUE低並非說明其碳排放也低。完全採用市電的數據中心與部分採用可再生能源(太陽能發電、風電等),以及以燃氣冷熱電三聯供系統作為能源的數據中心相比,顯然碳排放指標更高。數據中心的碳排放問題已經引起國際上廣泛地關注,碳使用效率CUE已經成為數據中心重要的關鍵性能指標,國內對此的關注度還有待加強。
5)GB/T32910.3—2016規定,在計算EIT時,應減去機櫃風機的耗能。關於機櫃風機的能耗是否應屬於IT設備的能耗,目前國內外有不同的看法,其中主流觀點是伺服器風機的能耗應屬於IT設備的能耗,其原因有二:一是伺服器風機是用戶提供的IT設備中的一個組成部分,自然屬於IT設備;二是由於目前伺服器所採用的風機基本上均為無刷直流電動機驅動的風機(即所謂EC電機),風機的風量和功率隨負荷變化而改變,因此很難測量風機的能耗。由於數據中心風機的設置對PUE的大小影響很大,需要認真分析。從實際使用和節能的角度出發,有人提出將伺服器中的風機取消,而由空調風機取代。由於大風機的效率明顯高於小風機,且初投資也可以減少,因此這種替代方法被認為是一個好主意,不過這是一個值得深入研究的課題。
6)國內相關標准有待進一步完善。GB/T32910.3—2016《數據中心資源利用第3部分:電能能效要求和測量方法》的發布,極大地彌補了國內標准在數據中心電能能效方面的不足;同時,GB/T32910.3—2016標准頒布後,也引起了國內學術界和工程界的熱議。作為一個推薦性的國家標准如何與已經頒布執行的強制性行業標准YD 5193—2014《互聯網數據中心(IDC)工程設計規范》相互協調?在標准更新或升級時,包括內容相似的國際標准ISOIEC 30134-2-2016在內的國外相關標准中有哪些內容值得借鑒和參考?標准在升級為強制性國家標准之前相關機構能否組織就其內容進行廣泛的學術討論?都是值得考慮的重要課題。ASHRAE在發布ASHRAE90.4標准時就說明,數據中心的標准建立在可持續發展的基礎上,隨著科學技術的高速發展,標准也需要不斷更新和創新。
7)PUE的討論已經相當多,事實上作為大數據中心的投資方和運營方,更關心的還是數據中心的運行費用,尤其是電費和水費。目前在數據中心關鍵性能指標中尚缺乏一個經濟性指標,使得數據中心,尤其是大型數據中心和超大型數據中心的經濟性無法體現。
2.4.PUE的比較
不同數據中心的PUE值不應直接進行比較,但是條件相似的數據中心可以從其他數據中心所提供的測量方法、測試結果,以及數據特性的差異中獲益。為了使PUE比較結果更加公平,應全面考慮數據中心設備的使用時間、地理位置、恢復能力、伺服器可用性、基礎設施規模等。
3.其他性能指標
3.1.ASHRAE90.4
ASHRAE90.4-2016提出了2個新的能源效率指標,即暖通空調負載系數MLC和供電損失系數ELC。但這2個指標能否為國際IT界接受,還需待以時日。
3.1.1暖通空調負載系數MLC
ASHRAE對MLC的定義為:暖通空調設備(包括製冷、空調、風機、水泵和冷卻相關的所有設備)年總耗電量與IT設備年耗電量之比。
3.1.2供電損失系數ELC
ASHRAE對ELC的定義為:所有的供電設備(包括UPS、變壓器、電源分配單元、布線系統等)的總損失。
3.2.TGG白皮書68號
2016年,TGG在白皮書68號中提出了3個新的能源效率指標,即PUE比(PUEr)、IT設備熱一致性(ITTC)和IT設備熱容錯性(ITTR),統稱為績效指標(PI)。這些指標與PUE相比,不但定義不容易理解,計算也十分困難,能否被IT界接受,還有待時間的考驗。
3.2.1PUE比
TGG對PUEr的定義為:預期的PUE(按TGG的PUE等級選擇)與實測PUE之比。
3.2.2IT設備熱一致性ITTC
TGG對ITTC的定義為:IT設備在ASHRAE推薦的環境參數內運行的比例。
伺服器的進風溫度一般是按ASHRAE規定的18~27℃設計的,但是企業也可以按照自己設定的伺服器進風溫度進行設計,在此進風溫度下,伺服器可以安全運行。IT設備熱一致性表示符合ASHRAE規定的伺服器進風溫度的IT負荷有多少,以及與總的IT負荷相比所佔百分比是多少。例如一個IT設備總負荷為500kW的數據中心,其中滿足ASHRAE規定的伺服器進風溫度的IT負荷為450kW,則該數據中心的IT設備熱一致性為95%。
雖然TGG解釋說,IT設備熱一致性涉及的只是在正常運行條件下可接受的IT溫度,但是IT設備熱一致性仍然是一個很難計算的能源效率,因為必須知道:1)伺服器進風溫度的范圍,包括ASHRAE規定的和企業自己規定的進風溫度范圍;2)測點位置,需要收集整個數據中心伺服器各點的進風溫度,由人工收集或利用數據中心基礎設施管理(DCIM)軟體來統計。
3.2.3IT設備熱容錯性ITTR
TGG對ITTR的定義為:當冗餘製冷設備停機,或出現故障,或正常維修時,究竟有多少IT設備在ASHRAE允許的或建議的送風溫度32℃下送風。
按照TGG的解釋,ITTR涉及的只是在出現冷卻故障和正常維修運行條件下可接受的IT溫度,但是ITTR也是一個很難確定的參數。ITTR的目的是當冗餘冷卻設備停機,出現冷卻故障或在計劃維護活動期間,確定IT設備在允許的入口溫度參數下(<32℃)運行的百分比,以便確定數據中心冷卻過程中的中斷或計劃外維護的性能。這個參數很難手算,因為它涉及到系統操作,被認為是「計劃外的」條件,如冷卻單元的損失。
3.3.數據中心平均效率CADE
數據中心平均效率CADE是由麥肯錫公司提出,爾後又被正常運行時間協會(UI)採用的一種能源效率。
CADE提出時自認為是一種優於其他數據中心能源效率的指標。該指標由於被UI所採用,所以直到目前仍然被數量眾多的權威著作、文獻認為是可以採用的數據中心性能指標之一。但是筆者發現這一性能指標的定義並不嚴謹,容易被誤解。另外也難以測量和計算。該指標的提出者並未說明IT資產效率如何測量,只是建議ITAE的默認值取5%,所以這一指標迄今為止未能得到推廣應用。
3.4.IT電能使用效率ITUE和總電能使用效率TUE
2013年,美國多個國家級實驗室鑒於PUE的不完善,提出了2個新的能源效率——總電能使用效率TUE和IT電能使用效率ITUE。
提出ITUE和TUE的目的是解決由於計算機技術的發展而使得數據中心計算機配件(指中央處理器、內存、存儲器、網路系統,不包括IT設備中的電源、變壓器和機櫃風機)的能耗減少時,PUE反而增加的矛盾。但是這2個性能指標也未得到廣泛應用。
3.5.單位能源數據中心效率DPPE
單位能源數據中心效率DPPE是日本綠色IT促進協會(GIPC)和美國能源部、環保協會、綠色網格,歐盟、歐共體、英國計算機協會共同提出的一種數據中心性能指標。GIPC試圖將此性能指標提升為國際標准指標。
3.6.水利用效率WUE
TGG提出的水利用效率WUE的定義為:數據中心總的用水量與IT設備年耗電量之比。
數據中心的用水包括:冷卻塔補水、加濕耗水、機房日常用水。根據ASHRAE的調查結果,數據中心基本上無需加濕,所以數據中心的用水主要為冷卻塔補水。採用江河水或海水作為自然冷卻冷源時,由於只是取冷,未消耗水,可以不予考慮。
民用建築集中空調系統由於總的冷卻水量不大,所以判斷集中空調系統的性能時,並無用水量效率之類的指標。而數據中心由於全年製冷,全年的耗水量居高不下,已經引起了國內外,尤其是水資源貧乏的國家和地區的高度重視。如何降低數據中心的耗水量,WUE指標是值得深入研究的一個課題。
3.7.碳使用效率CUE
TGG提出的碳使用效率CUE的定義為:數據中心總的碳排放量與IT設備年耗電量之比。
CUE雖然形式簡單,但是計算數據中心總的碳排放量卻很容易出錯。碳排放量應嚴格按照聯合國氣象組織頒布的計算方法進行計算統計。