為T(mén)CO和PUE而生:英特爾HTA數(shù)據(jù)中心戰(zhàn)略全解析
將空調(diào)和UPS從數(shù)據(jù)中心中搬離出去,這真是一個(gè)瘋狂的決定,會(huì)使很多運(yùn)營(yíng)工程師和高管們坐立不安;但這又是一個(gè)很明智的決定,因?yàn)檫@會(huì)省下大筆的購(gòu)置和運(yùn)營(yíng)成本,顯著降低數(shù)據(jù)中心的PUE和TCO。
有沒(méi)有一個(gè)更好的辦法,既要工程師們安心享受愜意的周末時(shí)光,又要精明的老板們減少開(kāi)支,當(dāng)然還要符合國(guó)家節(jié)能減排的大政策環(huán)境。老實(shí)說(shuō),現(xiàn)在還沒(méi)有一個(gè)簡(jiǎn)單可行的操作方案。不過(guò),有些廠商已經(jīng)開(kāi)始嘗試著往這個(gè)方面走,并且推出了不少解決方案。
作為數(shù)據(jù)中心行業(yè)內(nèi)的最底層解決方案供應(yīng)商,英特爾也一直在這方面進(jìn)行嘗試。比如允許服務(wù)器工作在更高溫度環(huán)境中,改變服務(wù)器的供電方式和電池備份,加強(qiáng)對(duì)數(shù)據(jù)中心IT基礎(chǔ)設(shè)施的監(jiān)控能力,做到應(yīng)用負(fù)載與能耗的相匹配,提高IT設(shè)備的使用效率。
在這所有的方案中,高溫?cái)?shù)據(jù)中心是特別值得研究的,因?yàn)檫@是釜底抽薪的招數(shù)。從現(xiàn)在數(shù)據(jù)中心的整體能耗組成比例中,IT基礎(chǔ)設(shè)施、環(huán)境制冷和UPS是三塊最大的開(kāi)支。而制冷則是遵守能量守恒定律,主要是為了解決IT設(shè)備在運(yùn)行中產(chǎn)生的熱量,而UPS則是為了保證IT設(shè)備的工作連續(xù)性。
接下來(lái),就讓我們來(lái)詳細(xì)了解一下英特爾所推出的HTA數(shù)據(jù)中心。HTA是High Ambient Temperatures的縮寫(xiě),中文直譯是高環(huán)境溫度。英特爾希望通過(guò)通過(guò)提升數(shù)據(jù)中心工作溫度,減少冷卻系統(tǒng)的能源消耗,最大化的節(jié)約能源,并且降低整體數(shù)據(jù)中心的PUE。
HTA并不是一套完完全全的新技術(shù),而是一個(gè)多種技術(shù)的組合式解決方案。從單一晶體管到與處理器、服務(wù)器平臺(tái)、數(shù)據(jù)中心、以及輸配電網(wǎng)絡(luò),它已發(fā)展出一整套技術(shù)。
首先是數(shù)據(jù)中心氣流組織,英特爾采用了目前流行的冷熱通道隔離技術(shù)。目前,仍然有部分?jǐn)?shù)據(jù)中心在機(jī)柜放置方面不是很合理,這就造成了機(jī)房中局部熱點(diǎn)的出現(xiàn);同時(shí),冷熱通道混雜也提高了機(jī)房整體溫度環(huán)境,而機(jī)房級(jí)的制冷則需要消耗更多的能源。
其次是自然冷源的引入,通過(guò)引入自然環(huán)境的冷空氣來(lái)為IT設(shè)備降溫。比如,谷歌將規(guī)模龐大的數(shù)據(jù)中心建設(shè)在靠近北極圈的北歐地區(qū),就是為了引入自然冷源。通常業(yè)界認(rèn)為,自然冷源屬于上帝的恩賜,只能在高緯度地區(qū)才可能應(yīng)用;但英特爾的研究發(fā)現(xiàn),即使是在中低緯度地區(qū),在晝夜溫差較大的情況下,依然可以通過(guò)引入自然冷源來(lái)進(jìn)行降溫。
第三是引入英特爾所推出的Node Manager以及Data Center Manager等管理軟件,這些軟件可以監(jiān)控每一臺(tái)服務(wù)器功耗,并且給出精確和詳盡的報(bào)告;同時(shí),為了保證業(yè)務(wù)連續(xù)性,當(dāng)數(shù)據(jù)中心市電中斷時(shí),根據(jù)業(yè)務(wù)情況,能夠通過(guò)降低功耗的手段來(lái)延長(zhǎng)續(xù)航時(shí)間,保障企業(yè)業(yè)務(wù)受到最小的影響。而Power Thermal Aware Scheduling (PTAS) 技術(shù)可以幫助數(shù)據(jù)中心智能分析運(yùn)算量、功耗和溫度,通過(guò)分析各個(gè)服務(wù)器負(fù)載情況,將運(yùn)算量在不同機(jī)柜上進(jìn)行調(diào)度,來(lái)盡量杜絕局部熱點(diǎn)的出現(xiàn)。
第四,英特爾還為用戶(hù)提供了Battery Backup Solution解決方案,這套方案能夠?yàn)閿?shù)據(jù)中心提供電池備份,這樣可以省去UPS的一筆不少開(kāi)支,同時(shí)也是確保業(yè)務(wù)連續(xù)性的有效手段。其工作原理與UPS基本一致,也就是在市電中斷一直到備用油機(jī)全部加載之間,有效保護(hù)業(yè)務(wù)連續(xù)性。
第五,也是整體解決方案中最為關(guān)鍵的一環(huán):通過(guò)使得服務(wù)器可以安全有效的工作在更高的溫度環(huán)境下,比如說(shuō)現(xiàn)在普遍的運(yùn)行環(huán)境是18--21℃。如果將環(huán)境溫度提升到25-27度,服務(wù)器和存儲(chǔ)仍然能夠保證工作,但隨之而來(lái)的是巨大的能源節(jié)約。當(dāng)然,這主要?dú)w功于英特爾在服務(wù)器領(lǐng)域內(nèi)的主打產(chǎn)品至強(qiáng)系列芯片。從至強(qiáng)5600開(kāi)始,更先進(jìn)的制程工藝,更加智能的功率匹配,都可以有效幫助降低能耗。
毋庸置疑,HTA將會(huì)給用戶(hù)帶來(lái)多大的價(jià)值。但為什么目前依然是“曲高和寡”,因?yàn)橛脩?hù)的疑慮是非常明顯的,HTA會(huì)不會(huì)降低可靠性和穩(wěn)定性?
從服務(wù)器和數(shù)據(jù)中心的工作原理上來(lái)看,伴隨著溫度的升高,部分IT設(shè)備可靠性降低是必然的。所以,HTA數(shù)據(jù)中心并不是適合所有的應(yīng)用場(chǎng)景,比如在追求極致性能的HPC領(lǐng)域。正如英特爾亞太區(qū)數(shù)據(jù)中心事業(yè)部雷科夫所說(shuō):“HTA數(shù)據(jù)中心更加適合那些對(duì)于性?xún)r(jià)比高度重視的用戶(hù),他們追求的不是極致性能,也不是絕對(duì)穩(wěn)定可靠,而是最低的TCO。用戶(hù)完全可以把在構(gòu)建和運(yùn)營(yíng)HTA數(shù)據(jù)中心過(guò)程中節(jié)省的成本,用于購(gòu)置更多的IT設(shè)備,通過(guò)增加設(shè)備冗余來(lái)提升可靠性。”
目前,主流服務(wù)器廠商都能夠提供一些可以在高溫環(huán)境下的相關(guān)產(chǎn)品,用戶(hù)已經(jīng)有了更多的選擇。“接下來(lái),英特爾將會(huì)和更多的ODM/OEM廠商進(jìn)行合作,加快新產(chǎn)品的推出,也會(huì)通過(guò)ODCA等行業(yè)組織進(jìn)行更多的推廣和宣傳。”
用戶(hù)需要改變的是什么呢?認(rèn)識(shí),傳統(tǒng)的認(rèn)識(shí),花費(fèi)更少的成本,得到同樣的穩(wěn)定性和可靠性,何樂(lè)而不為呢?