按照著名的Tick-Tock戰(zhàn)略,英特爾在3月初發(fā)布了至強E5-2600/1600系列處理器。一代的至強E5-2600系列還是沿用了之前單路至強E3所采用的SandyBridge架構,但是因為E5是面向雙路應用的產(chǎn)品,所以在命名上叫做“SandyBridge-EP”。作為英特爾的主力產(chǎn)品,至強E5-2600/1600系列處理器的主要方向就是提供更好的云服務及高性能計算環(huán)境。下面,我們就從技術及應用的角度介紹一下至強E5處理器作為云計算平臺計算的基礎所具備的種種優(yōu)勢特性。
四大技術革新助力云計算基礎架構
對于云計算應用來說,強大的性能是保證有效應用的關鍵。本次英特爾至強E5系列處理器的推出正是大幅度提升了處理器計算能力,從而實現(xiàn)了更快的運行速度和更大的處理能力。具體說來,至強E5系列處理器相比上一代的至強5600系列來說主要有以下4方面的改進。
至強E5-2600處理器架構介紹
圖中為我們傳達了4個重要的信息8核心、QPI 8.0GT/S通道、DDR3高頻內存的支持、PCI-E 3.0互聯(lián)互通。下面我們就一一來解釋這4個要素。
8核心處理器在上一代的Westmere-EP處理器中,某些高端的型號采用的是6核心架構,這也是英特爾在雙路處理器中提供的頂級核心數(shù)量。當然借助于超線程的支持,這個核心數(shù)量的數(shù)字可以翻一番,但是從物理的角度來說英特爾在E5-2600之前一直是以6核心的產(chǎn)品擔當重任。
如今發(fā)展到了E5-2600系列,處理器的核心增加到了8個。這個不僅僅是簡單的數(shù)量提升,要知道在同樣適用SandyBridge架構的E3處理器中,核心數(shù)量只有4個。更多的物理核心可以提供更好的計算性能,當然對于時下流行的虛擬化來說,多核心的優(yōu)勢更為明顯。
第二條QPI通道同樣對比上一代的Westmere-EP處理器,英特爾自從在Nehalem-EP中增加了QPI 這個概念之后,對于性能提升有了極大的飛躍。而這次在E5-2600中,通道的數(shù)量增加到了2條,而且?guī)捯蔡嵘搅?GT/s,之前是6.4GT/s。換句話說,同樣是基于SandyBridge架構,雙路的產(chǎn)品比單路產(chǎn)品增加了更多的處理器互通功能,這會使得兩個或多個處理器之前的協(xié)調更為順暢,言外之意就是性能也會隨之提升。
DDR3高頻內存的支持從Nehalem-EP開始,英特爾支持三通道的DDR3內存,那時候的頻率還是 1066MHz。到了Westmere-EP這代,三通道的內存支持沒有變,但是頻率提升到了1333MHz。如今,至強E5-2600這代產(chǎn)品出現(xiàn)了變化。首先是對于內存頻率的支持達到了1600MHz,這還不是最重要的至強E5-2600系列支持4通道內存,最大內存插槽數(shù)量也從原來的18條增加到了24條。從數(shù)量來說,3*6和4*6的看起來是多了不少,但是能夠實現(xiàn)的通道組數(shù)量是相同的。當然,在這一代的內存上也有了明顯的變化,這一點我們隨后會提到。
PCI-E 3.0互聯(lián)英特爾在至強E5處理器中增加了對于PCI-E 3.0規(guī)范的支持,但是這一代的主板還僅能提供PCI-E 2.0的接口。在可以預見的下一代IvyBridge處理器中,英特爾將全面支持PCI-E 3.0規(guī)格。這部分我們在后面會有詳細的解釋,這里先給大家留下一個印象。
剛剛我們看過了至強E5-2600系列處理器的新改進,這還遠遠不夠。我們需要了解的是E5-2600處理器是如何運行的,具體來說就是如何與其他的設備相溝通。這部分我們來看看下面的一張圖。
至強E5-2600處理器是如何運行的
首先來解釋一個名詞Romley。Romley是本次至強E5處理器的平臺名稱,是圍繞著至強E5處理器而開發(fā)的芯片組、主板以及相關技術組成的解決方案平臺。因此,這里我們就可以看到這個平臺在運行中的一些特性。
基本上處理器部分包括了我們剛剛介紹的內容,我們可以從圖示中清楚的看到處理器所提供的40條PCI-E 3.0通道之外,在第二顆處理器上還有1條PCI-E 2.0的通道(黃色部分),第一顆處理器有粉色部分都與芯片組相連。
另外我們看到了兩個英特爾一直力推的內容,Node Manager節(jié)點管理器和Data Center Manager數(shù)據(jù)中心管理軟件。對于云應用來說,在數(shù)據(jù)中心中管理成千上萬臺服務器可不是那么容易的事情。這兩款軟件可以幫助系統(tǒng)維護人員盡可能降低維護難度,節(jié)省維護成本和時間。
剛剛我們看到的還是以處理器為主,包括如何與外部互通的內容。那么處理器內部是如何通信的呢?這里我們就不得不提及它的核內與核外架構。
至強E5-2600處理器核內與核外架構
這里我們又看到了“圓環(huán)套圓環(huán)”的設計,也就是從SandyBridge開始的環(huán)形總線。與至強E3所提供的類似,這次的環(huán)形總線還是分為內外兩條,在核心數(shù)量上增加到了8個。圖中剪刀的部分就是至強E5相比E3來說增加的4個核心。
和E3處理器類似,Ring Bus環(huán)形總線更能夠較好的展示出Sandy Bridge的真實性能。通過上圖大家可以看到,Ring Bus環(huán)形總線連接各個CPU核心、LLC緩存(L3緩存)、融合進去的GPU以及System Agent(系統(tǒng)北橋)等部分。[!--empirenews.page--]
Ring Bus環(huán)形總線由四條獨立的環(huán)組成,分別是數(shù)據(jù)環(huán)Data Ring、請求環(huán)Request Ring、響應環(huán)Acknowledge Ring和偵聽環(huán)Snoop Ring。借助于環(huán)形總線,CPU與GPU可以共享LLC緩存,將大幅度提升GPU性能。
在這個環(huán)形總線上,分布著多個Ring Stop,也就是俗稱的“站臺”。這個“站臺”在每個CPU/LLC塊上具有兩個連接點。環(huán)形總線的存在,可以大大減少核心訪問三級緩存的周期。在以往的產(chǎn)品中,多個核心共享一個三級緩存,需要訪問的話必須先經(jīng)過流水線發(fā)送請求,在進行優(yōu)先級排序之后才能進行。新的環(huán)形總線將三級緩存分割成了若干部分,借助于每個站臺,核心可以快速的訪問LLC。
在至強E5中,還沿用了SandyBridge架構的256位指令集。這部分其實在單路至強E3中就已經(jīng)談過,相比原來的128位指令集來說,256位指令集在性能上更為出色。有關這部分的內容我們可以看看E3處理器中是如何介紹的。
256bit指令集,讓好事變得更好
Sandy Bridge的AVX將向量化寬度擴展到了256位,原有的16個128位XMM寄存器擴充為256位的YMM寄存器,可以同時處理8個單精度浮點數(shù)和4 個雙精度浮點數(shù)。換句話說,Sandy Bridge的浮點吞吐能力可以達到前代的兩倍。不過現(xiàn)在,AVX的256位向量還僅僅能夠支持浮點運算。不過AVX的特別之處在于,它可以應用128位的SIMD整數(shù)和SIMD浮點路徑。
AVX指令集是和Sandy Bridge微架構緊密結合的,因此,微架構的浮點寄存器也要從128位擴展到256位,此外,Load單元也要適應一次載入256位的能力,Sandy Bridge沒有直接擴展原有Load單元的位寬,而是通過增加了一個Load單元來達到256bit Load的能力。
在進行新性能擴展的同時,AVX指令集的出現(xiàn)對于原有的X86指令集也進行了優(yōu)化與重新組合這主要源于AVX指令集新的操作碼編碼方式。AVX指令集的編碼方式叫做VEX(Vector Extension),其主要用途是縮短指令長度,降低無謂的代碼冗余,并且也降低了對解碼器的壓力,實現(xiàn)的方式也很特別壓縮各式各樣的Prefix 前綴,集中到一個比較固定的字段中,從而達到了精簡指令集的目的。
剛剛我們在介紹E5-2600的時候,曾經(jīng)提到過它的2個重大改進,就是雙QPI通道和PCI-E 3.0支持。下面,我們就來詳細介紹一下這兩部分內容是怎么回事兒。
雙QPI通道示意圖
這里我們看到的是兩個QPI管理模塊。通過這兩個模塊,我們可以看到數(shù)據(jù)實現(xiàn)了同時互通,QPI具備了20條通道,同時可以動態(tài)分配10條通道。QPI通過環(huán)形總線與外界互通,達到了傳輸指令和數(shù)據(jù)的目的。
PCI-E 3.0示意圖
我們可以看到,處理器的核外結構部分提供了PCI-E 3.0的功能,而相比上一代的PCI-E 2.0來說,它可以實現(xiàn)帶寬數(shù)量的雙倍提升,從4GT/s提升到8GT/s。更重要的是,這些通道之間可以隨意組合,我們看到在PCI-E 3.0提供的40個通道中,每16個通道可以實現(xiàn)2個X8或者4個X4功能,這樣對于有效分配帶寬非常有幫助,因為并非所有的設備都需要X16通道才能支持。
由此看來,PCI-E 3.0提供了一種靈活的模式,大大增加了帶寬的利用率。這就使得所有的PCI-E設備都可以實現(xiàn)高速互聯(lián),同時也讓之前難以普及的PCI-E外界設備得到了更大的發(fā)展空間(比如PCI-E SSD固態(tài)硬盤)。我們在這里也看到了PCI-E 2.0的身影,作為低速通道,它更大的作用是實現(xiàn)一種補充,而且也只有X4一種規(guī)格。
俗話說好馬配好鞍,剛剛我們介紹了許多處理器相關的內容,現(xiàn)在我們將視角轉移到芯片組上來,看看SandyBridge-EP的芯片組有哪些變化。這次至強E5-2600搭載的芯片組名稱為C600。
英特爾C600芯片組示意圖
我們來看看C600芯片組的支持設備圖。首先我們發(fā)現(xiàn),它通過PCI-E 2.0與處理器相連,其次就是我們看到了PCI-E 2.0的字樣,同樣這也是作為PCI-E 3.0的補充而存在的。
除了上面介紹的2內容之外,還有一個內容也是要注意的。在磁盤方面,C600芯片組提供了SATA接口下3Gbps和6Gbps兩種磁盤的支持,但是板載的SAS接口卻只能支持到最大8個3Gbps接口。如今許多SAS磁盤都是基于6Gbps接口的,也就是說用戶需要使用額外的陣列卡才行。
雖然沒有提供SAS 6Gbps的支持,但是本次發(fā)布的E5-2600系列在I/O方面也有獨到之處。它有一個名為Data Direct I/O的特色技術(以下簡稱為DDIO),這項技術可以幫助處理器更快速、更智能的選擇最短路線來讀寫數(shù)據(jù),從而提升I/O性能。[!--empirenews.page--]
通過進出兩個方向的對比,我們驚奇的發(fā)現(xiàn)如今數(shù)據(jù)的讀寫已經(jīng)不需要像以前那樣經(jīng)過內存才能完成。從LLC可以直接傳輸?shù)胶诵闹?,這樣就節(jié)省了繁瑣的操作步驟,提供了更短的相應時間。之前需要4-5步的操作如今可以簡化到3步完成,流水線少了一環(huán),自然也更加快捷。
如今節(jié)能是大家都在談論的話題,而且數(shù)據(jù)中心應用的能耗是巨大的,因此在這一代的至強E5-2600系列中特別談到了如何節(jié)能的問題。我們先來看看英特爾有什么兼顧性能和節(jié)能的解決辦法。
動態(tài)調整性能
在E5-2600系列中,英特爾提出了一個觀點,就是如何使得兼顧性能的同時保證節(jié)能。這里有一個動態(tài)開關的概念。我們看到圖中的3條線,綠色代表了最佳性能、藍色代表了均衡性能(提供動態(tài)開關),而黃色代表了均衡性能(不提供動態(tài)開關)。
在開啟了動態(tài)開關之后,我們會發(fā)現(xiàn)之前處于下風的均衡性能會有一個明顯的提升,其吞吐量最終與最佳性能重合了。也就是說動態(tài)開關可以保證服務器即便在非最高性能運行的情況下,還可以實現(xiàn)高可用性,這在之前是沒有的,也是一個新的突破。
LR內存運行示意圖
另外一個是又第三方內存廠商提供的。如今在強調虛擬化的同時,用戶也在不斷增加內存,這勢必對服務器來說也是不小的能耗負擔。LR內存的出現(xiàn)就是為了解決這一問題,它本身是低能耗的內存,而且相比傳統(tǒng)的R-ECC內存來說我們可以明顯的看到它通過一個緩存芯片實現(xiàn)了更快速的數(shù)據(jù)讀寫方式,這也是它性能提升的原因所在。
結合高速計算與更低能耗,至強E5-2600/1600系列處理器提供了硬件與軟件多方面的改進。硬件上更快速的 SandyBridge核心幫助服務器實現(xiàn)更大的性能,而動態(tài)開關和低功耗內存的支持幫助服務器可以實現(xiàn)更低的功耗。而在數(shù)據(jù)中心層面,英特爾節(jié)點管理器和數(shù)據(jù)中心管理器都可以幫助云應用實現(xiàn)更高效和更節(jié)能。總結我們談到的至強E5系列處理器諸多特點,我們發(fā)現(xiàn)它實現(xiàn)了更高的性能和更低的功耗,作為新一代的產(chǎn)品來說實現(xiàn)了真正實現(xiàn)了對于上一代的替代,為當今數(shù)據(jù)中心及云應用環(huán)境提供了平臺基礎。