決戰(zhàn)方寸之間——在Socket上迎戰(zhàn)數(shù)據(jù)中心的成本與架構(gòu)之困

時(shí)間：2020-05-06 17:13:46

關(guān)鍵字：數(shù)據(jù)中心 SOCKET BSP EPYC

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]編者按：以云計(jì)算為代表的信息化手段對于當(dāng)下疫情的防控工作有著卓然的成效，無論是遠(yuǎn)程視訊、病毒分析、疫情風(fēng)控分析、視頻監(jiān)控、前端如體溫和人臉采集分析等都離不開后端數(shù)據(jù)中心的支持。這勢必牽扯到海量的數(shù)據(jù)處理能力，而這海量的數(shù)據(jù)處理能力則依托的是

編者按：以云計(jì)算為代表的信息化手段對于當(dāng)下疫情的防控工作有著卓然的成效，無論是遠(yuǎn)程視訊、病毒分析、疫情風(fēng)控分析、視頻監(jiān)控、前端如體溫和人臉采集分析等都離不開后端數(shù)據(jù)中心的支持。這勢必牽扯到海量的數(shù)據(jù)處理能力，而這海量的數(shù)據(jù)處理能力則依托的是服務(wù)器集群所提供的計(jì)算能力。

沒有技術(shù)能夠一勞永逸地解決所有問題，當(dāng)年的主機(jī)如是，現(xiàn)今的PCServer如是，代表未來的云計(jì)算更如是。于是，我們也只能邊用邊改、邊總結(jié)邊探索。

雖然我們已經(jīng)推開了數(shù)字時(shí)代的門扉，看到了數(shù)字技術(shù)給商業(yè)和社會帶來的巨大改變。但在數(shù)字基礎(chǔ)架構(gòu)層面，問題還遠(yuǎn)遠(yuǎn)沒有結(jié)束。甚至可以說，即使最先進(jìn)的超大規(guī)模數(shù)據(jù)中心也同樣有著自己的近憂和遠(yuǎn)慮。

近憂是數(shù)據(jù)中心的建設(shè)和運(yùn)維成本；而遠(yuǎn)慮則是全新計(jì)算類型不斷出現(xiàn)所帶來的架構(gòu)性挑戰(zhàn)。

成本

數(shù)據(jù)中心永遠(yuǎn)在翻越的山峰

即便將數(shù)據(jù)中心選址在地價(jià)、電價(jià)相對便宜的地區(qū)，數(shù)據(jù)中心仍是IT建設(shè)中最顯而易見的重資產(chǎn)項(xiàng)目，其建設(shè)與運(yùn)營都需要巨量的資本。由于需要大量土建工程和基礎(chǔ)設(shè)備的支持，數(shù)據(jù)中心內(nèi)每一平米能夠留給IT設(shè)備的面積都需要五位數(shù)乃至六位數(shù)的價(jià)格。

面對堪比北上廣房價(jià)的數(shù)據(jù)中心建設(shè)費(fèi)用，計(jì)算的密度就成為了任何數(shù)據(jù)中心建設(shè)者都會關(guān)心的核心設(shè)備指標(biāo)。而在對于計(jì)算密度的極致追求之下，Olympus、Open19、ODCC天蝎項(xiàng)目、OpenRack等定制服務(wù)器項(xiàng)目的不斷出現(xiàn)也就不足為奇了。

當(dāng)然，除了在設(shè)備結(jié)構(gòu)上精雕細(xì)琢，對于絕大多數(shù)數(shù)據(jù)中心而言，提升計(jì)算密度和效率還有另外一條更直接的道路可選——擁有更多核心、更高性能的計(jì)算平臺。

AMD第二代EPYC平臺

巔峰性能且更具性價(jià)比

繼2017年推出代號為“那不勒斯”的第一代EPYC處理器后，AMD于2019年發(fā)布了代號為“羅馬”的第二代EPYC處理器。

代號為“羅馬”的AMD第二代EPYC系列處理器

作為業(yè)界首款基于7nm工藝的處理器，第二代EPYC處理器最高內(nèi)置64核128線程，256M三級緩存，八通道DDR4-3200內(nèi)存（單路4TB）、128條PCIe4.0等一系列新特性。根據(jù)AMD公布的數(shù)據(jù)，其雙倍核心數(shù)量加上針對提升周期指令數(shù)進(jìn)行的優(yōu)化，其浮點(diǎn)性能相較上一代產(chǎn)品提升約4倍。同時(shí)，引入7nm制程工藝帶來了更高能效；這也意味著第二代EPYC的能效比是上一代產(chǎn)品的2倍。第二代EPYC處理器在多種業(yè)內(nèi)性能基準(zhǔn)測試中領(lǐng)先，迄今為止保持超過了140項(xiàng)世界紀(jì)錄。

得益于Chiplets設(shè)計(jì)，第二代EPYC平臺在較短的時(shí)間內(nèi)完成了產(chǎn)品的迭代升級。相比較單片SoC的方式，采用Chiplets設(shè)計(jì)更具靈活性，因?yàn)樵谠S多場景下如果將功能都集成在一顆die上，其性能、功耗、面積通常難以做到最優(yōu)。而采用Chiplets還可以縮短產(chǎn)品的開發(fā)周期，并從一定程度上降低設(shè)計(jì)風(fēng)險(xiǎn)。AMD將其稱為“AMD Infinity”混合多芯片架構(gòu)，這種架構(gòu)在第二代EPYC處理器中的應(yīng)用達(dá)到了新的高度。

在第二代EPYC平臺上，AMD采用了最新的7nm工藝設(shè)計(jì)了CoreChiplet Die（簡稱CCD）部分，而每個(gè)CCD部分均包含兩個(gè)CPUComplex（簡稱CCX），每個(gè)CCX整合了四個(gè)core。而在內(nèi)存、PCI-e以及磁盤控制器等I/O處理的部分，則采用了14nm的工藝來降低成本與開發(fā)周期。每個(gè)I/O核心最多可與8個(gè)CCD核心相連，即最高64核的設(shè)計(jì)。

在2月份舉行的SSCC2020大會上，AMD方面談到了采用7nm+14nm工藝對比單純7nm工藝設(shè)計(jì)有效降低了成本：如果將64核產(chǎn)品作為基準(zhǔn)比較，在48核、32核、24核、16核產(chǎn)品上有著最高約兩倍的節(jié)省，其中核心數(shù)量越大，所節(jié)約的成本越多。

而采用臺積電7nm工藝封裝的核心部分不僅大幅提升了能效比，相比第一代EPYC還有效降低了CCD的面積，這使得在第二代EPYC平臺中的CCD部分可以塞入更多的內(nèi)核。同時(shí)，改進(jìn)了的分支預(yù)測器，優(yōu)化過的L1指令緩存，兩倍的浮點(diǎn)單元數(shù)據(jù)寬度，指令存儲隊(duì)列，兩倍的L1數(shù)據(jù)緩存讀寫帶寬。單個(gè)CCX兩倍的L3緩存等多種改動使得Zen2 相對于Zen1有超過15%的IPC提升。最終使得Zen2相較Zen1有了約兩倍的能效比提升。值得一提的是，由于采用這種非一體化的芯片設(shè)計(jì)有效地縮短了產(chǎn)品設(shè)計(jì)周期，AMD還將推出代號“米蘭”的第三代EPYC，采用臺積電7nm+工藝有望進(jìn)一步提高能效比。

目前，AMD EPYC平臺已經(jīng)得到了包括騰訊云、亞馬遜、微軟、甲骨文、谷歌等大型云服務(wù)提供商的青睞；此外，包括戴爾、HPE、H3C、聯(lián)想等頂級OEM合作伙伴也與AMD合作推出了豐富的基于第二代EPYC平臺的服務(wù)器產(chǎn)品。

從另一層面來看，在EPYC平臺從第一代到第二代的升級過程中，AMD并沒有更換處理器插座。這意味著，用戶可以通過升級固件并安裝新CPU的形式在不更換服務(wù)器整機(jī)的前提下就獲得更多核心及更多性能。顯然，這對于一些用戶來說是十分具有吸引力的。

回看文章最初的問題，構(gòu)建數(shù)據(jù)中心通常需要一個(gè)相對復(fù)雜的流程，實(shí)際情況根本沒有那么多推倒重來的可能。而在不改變原有風(fēng)火水電等配套設(shè)施的前提下，如何在持續(xù)提高計(jì)算性能的同時(shí)保證出色的能效比則是企業(yè)數(shù)據(jù)中心長期的追求。而縱觀AMD EPYC平臺的設(shè)計(jì)思路，則可以很大程度上對客戶的原有投資進(jìn)行保護(hù)，滿足大多數(shù)用戶分批次升級的產(chǎn)品生命周期規(guī)劃。

Chiplets

助力摩爾定律開創(chuàng)更多可能

面對越來越豐富的計(jì)算類型，服務(wù)器也出現(xiàn)了計(jì)算場景化的趨勢。通過安裝GPU、FPGA、AISC等不同類型的計(jì)算核心，服務(wù)器往往能夠獲得在特定應(yīng)用場景中更好的計(jì)算效率。但與此同時(shí)，通過不斷增加計(jì)算卡的方式來實(shí)現(xiàn)算力多元化，也會對服務(wù)器的功耗、散熱、物理空間占用等方面提出更高要求。

面對這樣的矛盾，由AMD在數(shù)據(jù)中心計(jì)算平臺中首先實(shí)踐的Chiplets則給出了令人期待的解決路徑。未來，通過將不同的晶片集成在同一基板之上，AMD及其合作伙伴則可以在Socket的方寸之間就解決算力多元化的大挑戰(zhàn)。而由于CPU在服務(wù)器內(nèi)往往有著最好的供電和散熱資源，通過計(jì)算卡形式進(jìn)行算力多元化所帶來的多種問題也將因此迎刃而解。

換句話說，在已有的基板之上，AMD可以較為方便的對晶片數(shù)量進(jìn)行增減。這就讓AMD可以用更低的成本和售價(jià)來推出面向中端或入門純處理器產(chǎn)品。當(dāng)然，在去掉一些CCD之后，空余的IO帶寬和總線還可以用來與同樣集成在基板上的其他類型晶片相接駁，從而打造面向特定應(yīng)用的“異構(gòu)”處理器。

順著這一思路想象，我們可以期待的未來將更加豐富多彩。例如，我們可以將CPU上的其中一個(gè)或多個(gè)CCD替換為GPU并增加相應(yīng)的HBM，從而獲得更好的ML/DL及推理應(yīng)用性能（而這種方式也很有可能是解決多GPU之間數(shù)據(jù)交換與同步的新方法）；再比如，我們也可以將這些CCD替換為更有針對性的ASIC來增強(qiáng)CPU在其他特定算法中的性能表現(xiàn)，進(jìn)而打造出更具場景化的計(jì)算平臺方案。

相對于以往的芯片整體設(shè)計(jì)思路，這種利用Chiplets技術(shù)打造異構(gòu)芯片的方法不僅能夠讓現(xiàn)有IP繼續(xù)發(fā)揮價(jià)值，更可以大幅降低新處理器或計(jì)算平臺的研發(fā)周期和成本，讓更多計(jì)算場景能夠以更低成本獲得大幅度的性能優(yōu)化和基礎(chǔ)設(shè)施架構(gòu)簡化。

而從更宏觀的層面來看，Chiplets技術(shù)也很可能是延續(xù)摩爾定律的有效催化劑。

決戰(zhàn)方寸之間

作為服務(wù)器乃至整個(gè)數(shù)字基礎(chǔ)架構(gòu)的核心，處理器是一門相當(dāng)復(fù)雜的藝術(shù)。說它是藝術(shù)不僅因?yàn)樗枰谠O(shè)計(jì)、制程與工程之間不斷探索新的平衡，更因?yàn)橐豢钐幚砥饕獞?yīng)對來自當(dāng)下和未來的雙重挑戰(zhàn)。

而一款優(yōu)秀的處理器所代表的計(jì)算平臺則要做到在為用戶提供可見的性能提升的同時(shí)，為用戶乃至行業(yè)的未來提供新的發(fā)展方向、新的發(fā)展思路。

從這兩方面來看，第二代EPYC處理器都具備獨(dú)特的意義。64核與7nm的組合為用戶帶來了肉眼可見的計(jì)算性能和密度提升，能夠幫助數(shù)據(jù)中心站上成本與性能的新高度。而Chiplets技術(shù)的應(yīng)用則為制程進(jìn)步趨緩背景下摩爾定律的繼續(xù)生效提供了全新路徑。

能夠在幾百平方毫米的方寸之間將對技術(shù)和未來洞察演繹至此，幾年以來，這樣的產(chǎn)品的確罕見。

在這里我并不想著墨過多溢美之詞；并不是因?yàn)檫@款產(chǎn)品不值得，而是因?yàn)楹芸煳覀冞€會有全新的Milan可以期待。屆時(shí)再做品讀亦為時(shí)不晚。

【IT葡萄皮】（公眾號：itopics）由資深媒體人張垞運(yùn)營。從業(yè)十二年的深度觀察，只為一篇不吐不快的科技評論。

聯(lián)系方式

電話：18612920630

電子郵件：69240891@163.com

微信：z87136954

QQ：87136954