新I/O技術(shù)有望成為實(shí)現(xiàn)3D芯片堆疊的最佳路徑
摘要: 低成本有機(jī)基板搭配新的I/O技術(shù)有望成為實(shí)現(xiàn)3D芯片堆疊的最佳路徑,NVIDIA公司首席科學(xué)家兼研發(fā)副總裁William Dally表示。
關(guān)鍵字: 芯片,處理器,存儲(chǔ)器
低成本有機(jī)基板搭配新的I/O技術(shù)有望成為實(shí)現(xiàn)3D芯片堆疊的最佳路徑,NVIDIA公司首席科學(xué)家兼研發(fā)副總裁William Dally表示。該公司最早可能在明年就將嘗試使用這種技術(shù),為其定于2015年推出的圖形處理器Volta做準(zhǔn)備。
在一個(gè)有多人參與的訪談中,William Dally對在CPU和GPU間有緩存一致的內(nèi)存需求頗不以為然,而其競爭對手AMD在參與這一技術(shù)的研發(fā)。Dally還強(qiáng)調(diào)了圖形在計(jì)算攝影學(xué)和億億次(Exascale)運(yùn)算中日益增長的重要性。
對向下一代半導(dǎo)體節(jié)點(diǎn)的升級換代來說,在工藝技術(shù)不再具有合理的投入產(chǎn)出比之際,芯片堆疊技術(shù)越來越被作為一種替代方案。
“過去,擁有最先進(jìn)的節(jié)點(diǎn)技術(shù)至關(guān)重要,”Dally說,“當(dāng)?shù)羌{德縮放比例定律(Dennard scaling)有效時(shí),如果你落后一個(gè)節(jié)點(diǎn),你將差1,000倍,基本上出局了。”
“現(xiàn)在,28nm和20nm之間的差距可能是20%至25%,”Dally說,“這對我意味著工藝不再像以前那樣生死攸關(guān),所以,如果我們在架構(gòu)和電路設(shè)計(jì)方面很高明,我們就可以扭轉(zhuǎn)我們比競爭對手落后一個(gè)節(jié)點(diǎn)而造成的劣勢?!闭劦街饕偁帉κ钟⑻貭枙r(shí),他這樣表示。
圖1:NVIDIA表示,將在2015年推出采用堆疊存儲(chǔ)器的圖形芯片Volta。
NVIDIA實(shí)驗(yàn)室的工程師正在研究一款巧妙的架構(gòu),該架構(gòu)應(yīng)用于面向未來的系統(tǒng)級封裝器件的地參考信號方案。該方法仍處于研究階段,,在20Gbps速率時(shí)每比特功耗不到0.5皮焦耳,Dally說。
I/O可以支持成本低于硅內(nèi)插器的有機(jī)基質(zhì),但需要物理上更大的鏈接。NVIDIA需要每個(gè)引腳10Gbps的獨(dú)立鏈路(約是當(dāng)今鏈接速度的10倍)以支持200GBps的器件帶寬,Dally說。
IBM已將較大的有機(jī)基板用于處理器模塊,其一側(cè)的量級達(dá)到100毫米,Dally說。他看到2.5D堆棧使用的基板位于圖形裸片挨著DRAM堆棧的地方。他補(bǔ)充說,圖形芯片產(chǎn)生的熱量過高,以致無法與存儲(chǔ)器垂直堆疊在一起,且這種堆棧面臨相對高的成本和低良率問題。
NVIDIA一直研究堆疊芯片在“整個(gè)產(chǎn)品線”的應(yīng)用情況,他說。首先在作為更傳統(tǒng)產(chǎn)品系列一個(gè)成員的中端GPU上測試該技術(shù)是有意義的。
“我們需要以某種方式嘗試,也試試兩面下注,” Dally說,“當(dāng)你用一種新技術(shù)批量生產(chǎn)產(chǎn)品時(shí),你會(huì)學(xué)到很多東西,所以我覺得我們想以這樣一種方式做這事:它增加了功能,但主流產(chǎn)品不依賴它。”
在最近的一個(gè)年度會(huì)議上,NVIDIA的首席執(zhí)行官黃仁勛宣布,該公司將在2015年推出采用堆疊存儲(chǔ)器的下一代圖形處理器——Volta。不過,他沒有透露該產(chǎn)品的任何細(xì)節(jié)或?qū)⒉捎玫募夹g(shù)。
在有機(jī)基板上力推2.5D堆疊是有道理的,佐治亞理工學(xué)院該領(lǐng)域的研究人員Tummula Rao說?!拔覀冏糁蝸喞砉W(xué)院也在進(jìn)行有機(jī)物的存儲(chǔ)器堆疊研究,也打算做2.5D。”他說。
[#page#]
一名借助硅通孔進(jìn)行3D堆疊研究的佐治亞理工學(xué)院的研究人員則相對保守。
“看起來有機(jī)內(nèi)插器將在成本、良率和可靠性方面勝出,而硅內(nèi)插器將在互連尺寸/間距、性能和功耗上占優(yōu),” Lim Sung Kyu表示,“如果目標(biāo)應(yīng)用需要高存儲(chǔ)器帶寬,我甚至不確定有機(jī)內(nèi)插器是否能滿足要求?!?/P>
圖2:William Dally。
此外,Dally補(bǔ)充說,整合了CPU和圖形內(nèi)核的系統(tǒng)級芯片,并不需要對手AMD正在幫助開發(fā)的作為異構(gòu)系統(tǒng)架構(gòu)聯(lián)盟一部分的所謂與緩存一致的那種內(nèi)存架構(gòu)。
相反,NVIDIA將在其Cuda編程環(huán)境實(shí)現(xiàn)虛擬存儲(chǔ)器能力。它將使用指針和頁表異常生成一個(gè)由圖形芯片和宿主CPU共享的虛擬存儲(chǔ)器池。NVIDIA將在2014年交付的其下一代圖形芯片Maxwell將是第一款采用該技術(shù)的產(chǎn)品。
該技術(shù)將成為NVIDIA使用ARM核及支持Cuda的GPU的SoC(從預(yù)計(jì)今年出樣片的Tegra 5開始)的一項(xiàng)關(guān)鍵能力。AMD的做法將被用于未來的、使用OpenCL建立在其x86和Radeon圖形內(nèi)核的SoC上。
“我想不出任何需要緩存一致性的應(yīng)用,”Dally說,“該辦法會(huì)在某些接口產(chǎn)生額外流量,可能成為瓶頸。”
Dally表示,圖形是下一代超級計(jì)算機(jī)和智能手機(jī)的關(guān)鍵,并對其最新的競爭產(chǎn)品,英特爾的Xeon Phi 處理器進(jìn)行了抨擊。他說,“在未來五到十年,對超級計(jì)算機(jī)來說真正的挑戰(zhàn)源于同樣重要的能效和可編程性這兩方面,”。
為實(shí)現(xiàn)明天的億億次計(jì)算系統(tǒng),芯片功耗需要從當(dāng)今的約100皮焦耳/狀態(tài)改變降到約20皮焦耳,而需要編程的節(jié)點(diǎn)要從幾百萬飆升到數(shù)十億,他說。NVIDIA的圖形處理器現(xiàn)在用在大約50個(gè)世界最強(qiáng)大的超級計(jì)算機(jī)內(nèi),這要部分歸功于Cuda的成熟。
英特爾的Xeon Phi(由x86核陣列組成的協(xié)處理器)正在超級計(jì)算機(jī)市場迅速得到認(rèn)可。但Dally表示,該芯片缺乏作為一款能提供支持其路線圖所需處理能力的可行圖形處理器的 “基本能力”。他還批評Xeon Phi 不具有NVIDIA的圖形內(nèi)核具有的高能效、且是款基于奔騰時(shí)代x86核的產(chǎn)品。
“如果我是一名超級計(jì)算機(jī)設(shè)計(jì)師,我會(huì)擔(dān)心Xeon Phi的長期可獲得性。”他說。
在投資方面,“中國實(shí)現(xiàn)億億次超級計(jì)算機(jī)的路線圖領(lǐng)先他人,并為此投入大筆資金。”Dally說,“盡管經(jīng)濟(jì)困難,歐洲的億億次超級計(jì)算機(jī)計(jì)劃還沒有縮水。但美國在該領(lǐng)域的投入在減少?!?/P>
在手機(jī)領(lǐng)域,圖形處理器用于計(jì)算攝影學(xué)及一系列旨在使用戶用手機(jī)拍照效果更佳的技術(shù)。NVIDIA和它的競爭對手正在推出支持高動(dòng)態(tài)范圍、補(bǔ)償惡劣照明條件、防范模糊的芯片,以迎合業(yè)余攝影愛好者的需求。[!--empirenews.page--]
“最終目標(biāo)是使普通人成為專業(yè)攝影師,”他說,“我們目前在做大量工作——例如,一般來說,計(jì)算機(jī)視覺就是對車內(nèi)外海量照相機(jī)應(yīng)用進(jìn)行集中處理的一個(gè)主要領(lǐng)域,”他補(bǔ)充說。