Tegra 4/4i、Icera i500架構(gòu)深度解析
CES 2013大展上,NVIDIA發(fā)布了全球首款四核A15架構(gòu)移動(dòng)處理器“Tegra 4”(代號(hào)Wayne),伴隨而來的是4G/LTE基帶“Icera i500”。MWC 2013大會(huì)上,NVIDIA又帶來了整合基帶的“Tegra 4i”(代號(hào)Grey),同樣四核心,但架構(gòu)上基于Cortex-A9,而所用基帶正是Icera i500。
AnandTech近日撰文,深度解析了Tegra 4、Icera i500、Tegra 4i的硬件架構(gòu)設(shè)計(jì),還有部分性能數(shù)據(jù)。感興趣的隨我來。
【Tegra 4:A15架構(gòu)細(xì)節(jié)、功耗控制】
NVIDIA其實(shí)是ARM指令集架構(gòu)的授權(quán)擁有者,但這一次,Tegra 4使用的還是處理器授權(quán),而不是NVIDIA自己設(shè)計(jì)的定制核心(就像高通Krait、蘋果Swift那樣的),那要到“丹佛工程”上才能實(shí)現(xiàn)。
對(duì)于A15的架構(gòu)情況,之前因?yàn)橘Y料有限,我們了解得并不多,而得益于Tegra 4的白皮書等文檔,終于可以一窺A15內(nèi)部世界了。更深入的解析會(huì)有機(jī)會(huì)單獨(dú)闡述,這里只從較高層面上看看。
A15的架構(gòu)要比A9寬得多、深得多,整數(shù)流水線也從9級(jí)增加到了15級(jí),但是分支預(yù)測(cè)同樣改進(jìn)顯著,但愿能比彌補(bǔ)長(zhǎng)流水線的缺憾。
A15的前端寬了50%,指令拾取帶寬翻番,有利于提升指令級(jí)并行(ILP),而為了充分利用三寬度發(fā)射,ARM大大增加了重排序緩沖(ROB)和所有相關(guān)數(shù)據(jù)結(jié)構(gòu)的尺寸。A9可以在重排序緩沖內(nèi)保留大約32-40個(gè)已解碼指令,A15則能保留128個(gè),僅此一點(diǎn)就足以反映兩種架構(gòu)的巨大差異:A9是基于A8的自然演化,A15則是一次全新的飛躍式革命。
執(zhí)行核心方面,A15的規(guī)模仍然更大,執(zhí)行端口、執(zhí)行單元都要比A9的多,均有助于提升ILP、單線程性能,還采用了多重、獨(dú)立的發(fā)射隊(duì)列的方式,以保持高頻率。每一個(gè)發(fā)射隊(duì)列都可以接受最多三條指令,所有的發(fā)射隊(duì)列都可以并行分發(fā)。
A15也可以執(zhí)行亂序指令,但能力更強(qiáng)了。A9上所有的浮點(diǎn)/NEON指令都必須順序執(zhí)行,但在A15上可以亂序,但是它依然不能重排序所有內(nèi)存操作:獨(dú)立載入可以亂序執(zhí)行,但是存儲(chǔ)不能在載入之前完成。
A15還改用了集成式二級(jí)緩存結(jié)構(gòu),而不是A9上的獨(dú)立IP塊。A15的一級(jí)、二級(jí)緩存延遲基本沒變,不過在一些情況下應(yīng)該會(huì)比A9多上1-2個(gè)時(shí)鐘周期。二級(jí)緩存TLB和其它數(shù)據(jù)結(jié)構(gòu)明顯增大,以滿足整個(gè)架構(gòu)的需要。
緩存容量上,一級(jí)還是32KB指令、32KB數(shù)據(jù),但是二級(jí)增至2MB,并為所有核心共享(Tegra 4的第五個(gè)節(jié)能核心還有自己的512KB二級(jí)緩存),任何核心只要允許都可以單獨(dú)占用全部2MB二級(jí)緩存。
A15是目前唯一可以在性能上超越當(dāng)今流行A9核心的ARM架構(gòu),不過性能也不菲。根據(jù)三星最新公布的數(shù)據(jù),A15可以提供最多3倍于A9的性能,但核心面積要達(dá)到4倍,功耗則要付出6倍。面積還好說,功耗就是大麻煩了。
而為了讓大家對(duì)新架構(gòu)的功耗放心,NVIDIA給出了這么一張圖:
更多執(zhí)行資源以提升ILP、更多的亂序利用、更好地內(nèi)存子系統(tǒng)以提升內(nèi)存級(jí)并行(MLP)、更智能的分支預(yù)測(cè)、平衡的移動(dòng)應(yīng)用功耗……這些都是說A15架構(gòu)的功耗控制特性的,而下方兩行展示了Tegra 3、Tegra 4的功耗對(duì)比。
NVIDIA宣稱,SPECint2000測(cè)試(可充分壓榨CPU資源)中Tegra 4/3的單線程整數(shù)成績(jī)是相同的,但是Tegra 4的功耗要低40%,再用性能除以功耗,Tegra 4在能效方面要?jiǎng)俪?5%。
不過這樣的對(duì)比并不太公平,因?yàn)榇藭r(shí)Tegra 3的頻率是最高的1.6GHz,Tegra 4則只有825MHz,電壓和功耗自然都低得多。Tegra 4如果全速運(yùn)行,功耗自然要高得多,雖然性能也會(huì)上去,但恐怕能效方面不會(huì)太好看。
但這也可能成為Tegra 4用于移動(dòng)設(shè)備時(shí)的一種政策:刻意限制頻率以控制功耗。而之所以選擇825MHz,因?yàn)樗彩堑谖鍌€(gè)節(jié)能專用核心的最高頻率,一般時(shí)候應(yīng)該是700-800MHz。
順便說一句,Tegra 4里的四個(gè)主力核心都使用相同的電壓和頻率層,只是每個(gè)核心都可以通過電源柵極單獨(dú)開關(guān),這和Intel的設(shè)計(jì)方式差不多,但不如高通每個(gè)核心的電壓和頻率層都是單獨(dú)的。
說起頻率,Tegra 4四個(gè)主力核心最高都可達(dá)1.9GHz,而如果使用少量核心,可以加速到更高速度,具體如何還得看設(shè)備廠商的選擇。
【Tegra 4i:A9 r4p1架構(gòu)最新版】
除了不同架構(gòu)之間的進(jìn)化,ARM每一個(gè)架構(gòu)也都有不同的版本,比如說同樣是A9,Tegra 2使用的是r1p1,Tegra 3里邊是r2p9,Tegra 4i又換成了最新的r4p1。
A9 r4p1架構(gòu)的GHB、二級(jí)緩存TLB、BTAC都增大了三倍,趕上了A15的水平,分別有16K、512、4096,這可以改進(jìn)分支預(yù)測(cè)精確度,進(jìn)一步提升IPC。
數(shù)據(jù)預(yù)取引擎也增強(qiáng)了,包括一個(gè)小的一級(jí)緩存預(yù)取器、單獨(dú)的緩存預(yù)載指令硬件。
NVIDIA宣稱,A9 r4p1相比于r2p9可以在SPECint_base測(cè)試中獲得15%的成績(jī)提升,僅僅是架構(gòu)微調(diào)就獲得如此好的整數(shù)性能改進(jìn)著實(shí)驚人,當(dāng)然真實(shí)情況如何還不太好說。不管怎樣,配合2.3GHz的最高頻率,Tegra 4i CPU性能會(huì)比Tegra 3好不少。[!--empirenews.page--]
根據(jù)數(shù)據(jù),Tegra 5里每個(gè)CPU核心的面積為2.7平方毫米,稍大于高通Krait 800,Tegra 4i則僅為1.15平方毫米。單論最大性能,Tegra 4在三者之中最為突出(高通肯定不服),而在性能頻率比、性能面積比上,Tegra 4、Tegra 4i分別是最好的。
【堅(jiān)守四核心】
Tegra 3是四核心(也可以說4+1),Tegra 4并未繼續(xù)擴(kuò)充,NVIDIA移動(dòng)事業(yè)部高級(jí)副總裁Phil Carmack也在去年初就坦率地告訴媒體,四核心將是未來NVIDIA SoC的一個(gè)標(biāo)準(zhǔn)。
其實(shí),四核心對(duì)于處理器來說是個(gè)不錯(cuò)的選擇:核心和線程數(shù)量夠多,足以應(yīng)付多線程負(fù)載;每個(gè)核心可以單獨(dú)開關(guān),或者部分休息部分加速,也能很好地執(zhí)行單線程負(fù)載;應(yīng)用方面已經(jīng)綽綽有余,核心再多純屬浪費(fèi);用戶和宣傳方面也足夠好看了,再多可能就讓人反感和質(zhì)疑了。28nm新工藝和A15新架構(gòu)加持之下,NVIDIA停留在四核心上是非常明智的。
Tegra 3的核心面積大約80平方毫米,Tegra 4塞入了晶體管,但感謝新工藝,面積稍大了一些但仍在80平方毫米這個(gè)檔次上。
不過在臺(tái)積電生產(chǎn)線上,28nm HPL工藝晶圓的成本顯然要大大高于40nm LPG,更何況還有良品率問題,所以Tegra 4的成本必然高出不少,后果就是設(shè)備價(jià)格不會(huì)多低。
說實(shí)話,Tegra 4并不完全是那種震驚業(yè)界、引領(lǐng)時(shí)尚的芯片(除了首款四核心A15的名號(hào)),但綜合來說卻是NVIDIA的最佳選擇,無論技術(shù)上還是商業(yè)上。
【Tegra 4/4i GPU架構(gòu)】
這個(gè)話題之前曾經(jīng)詳細(xì)探討過,這里就不再過于深入了,重點(diǎn)看看NVIDIA放出的一些新資料。
Tegra 4 GPU仍然是固定、分離的像素和頂點(diǎn)著色器設(shè)計(jì),也是惟一一個(gè)沒有采用統(tǒng)一著色器架構(gòu)的現(xiàn)代移動(dòng)GPU,看起來有些落伍,但仍然占用了不小的核心面積(10.5平方毫米),還有新的二級(jí)紋理緩存,用于改進(jìn)帶寬效率。
Tegra 4 GPU各方面都比上一代擴(kuò)充了不少,總計(jì)擁有72個(gè)核心,包括48個(gè)像素核心、24個(gè)頂點(diǎn)核心。Tegra 4i將頂點(diǎn)核心砍去一半,只留下12個(gè),像素核心則保留48個(gè),總計(jì)為60個(gè),不過Vec4像素單元從四個(gè)較小的變成兩個(gè)較大的,每個(gè)負(fù)責(zé)領(lǐng)導(dǎo)24個(gè)核心。
Tegra 4 GPU最高頻率提升到了672MHz,上代為520MHz,Tegra 4i則是660MHz。
T4 GPU像素、頂點(diǎn)單元分布
T4 GPU架構(gòu)圖
T4 GPU架構(gòu)圖
T4 GPU架構(gòu)效率對(duì)比(官方數(shù)據(jù)僅供參考)
T4i GPU像素、頂點(diǎn)單元分布
T4i GPU架構(gòu)圖
T2/3/4架構(gòu)圖
T4 VS. T3
T4i VS. T3
最大的遺憾當(dāng)屬?zèng)]有完整支持OpenGL ES 3.0,只是部分支持,比如多重渲染目標(biāo)等等。這主要是因?yàn)門egra 4GPU的像素著色器硬件浮點(diǎn)精度仍然是FP24,OpenGL ES 3.0則需要像素和頂點(diǎn)著色器都支持FP32。此外也沒有ETC、FP紋理支持。
就目前而言,OpenGL ES 3.0支持與否并無太大實(shí)際意義,但不支持的話至少在規(guī)格上就輸了一籌,而且這是大勢(shì)所趨,一兩年后等游戲大量使用它了Tegra 4就會(huì)很吃虧。
我們相信,NVIDIA完全有能力做一個(gè)支持OpenGL ES 3.0的GPU,但之所以選擇不去支持,應(yīng)該是出于核心面積控制方面的考慮。
【內(nèi)存子系統(tǒng)】
Tegra前三代的內(nèi)存帶寬都小得尷尬,沒法和蘋果、三星、高通的比,人家都是雙通道了。現(xiàn)在,Tegra 4配備了兩個(gè)32-bit LPDDR3內(nèi)存控制器,頻率也提高到了1866MHz(未來還會(huì)提升),終于有了充足的帶寬。[!--empirenews.page--]
Tegra 4并未采用PoP一體封裝,因此需要單獨(dú)的外置DRAM內(nèi)存顆粒,這顯然會(huì)限制Tegra 4 PCB的布局,使之在小型設(shè)備里會(huì)有些局促。
不幸的是,Tegra 4i又成了單通道內(nèi)存,但幸運(yùn)的是會(huì)支持PoP和獨(dú)立封裝兩種規(guī)格,其中前者頻率最高1600MHz,后者最高1866+MHz。
【Tegra 4性能究竟如何?】
因?yàn)闆]有設(shè)備,這個(gè)誰也不好說,只能參考NVIDIA官方數(shù)據(jù)。以下來自一款1.9GHz Tegra 4參考平板。
CPU性能明顯高于其它已知的任何ARM、Atom x86設(shè)備,GPU性能則宣稱可與iPad 4媲美。
【Icera i500基帶:軟實(shí)力很重要】
如果說Tegra 4的故事是關(guān)于CPU、GPU架構(gòu)的,Tegra 4i就是基帶了。NVIDIA其實(shí)很早就認(rèn)識(shí)到了基帶的重要性,2011年收購了Icera,整合就是時(shí)間問題了,而且進(jìn)展很快。
獨(dú)立的基帶芯片Icera i500是伴隨Tegra 4發(fā)布的,Tegra 4i里整合的也是這個(gè),只是去掉了USB界面,內(nèi)存子系統(tǒng)也略有不同而已。
Icera的基帶其實(shí)是很有趣的,架構(gòu)上是在數(shù)字基帶的基礎(chǔ)上用軟件定義射頻。當(dāng)然,純硬件或者純軟件的基帶也沒有,都是不同程度的綜合,高通也不例外。至于哪些功能是硬件實(shí)現(xiàn)的,哪些又是軟件做到的,誰都沒公開過,具體要看怎樣才能最好地控制功耗,做到資源重復(fù)利用最大化。
Icera基帶更偏向軟件這一側(cè),外置收發(fā)器處理向下轉(zhuǎn)換之后就是完全軟件的了。這樣如何保證競(jìng)爭(zhēng)力?秘密就在工藝上,NVIDIA選擇了側(cè)重性能的28nm HPM,而不是注重功耗的LP、HPL版本:使用高性能工藝,關(guān)閉不用的模塊,而不是做一個(gè)更大、漏電率更低的SoC。NVIDIA宣稱,這樣可以讓i500的面積比高通的MDM9x15小大約40%。
Icera的多年產(chǎn)品線都使用了相同的軟件平臺(tái),只是隨著網(wǎng)絡(luò)通信技術(shù)的變化而更新,這就保持了很好的前后兼容性,畢竟PHY、協(xié)議堆棧完全都是軟件的。
比如說,i500的多模調(diào)制解調(diào)軟件就和i4xx系列完全一樣,只是把改進(jìn)了DXP使其支持15MHz、20MHz通道的LTE。
整個(gè)堆棧的規(guī)模是120萬行C、DXP代碼,編譯后體積7.7MB。下圖就是整個(gè)協(xié)議堆棧的示意圖。
Icera i500的產(chǎn)品編號(hào)是“ICE9045”,28nm HPM工藝制造,搭配收發(fā)器型號(hào)ICE9245,工藝是看起來很老、但很適合的臺(tái)積電65nm LP CMOS,通過數(shù)字界面與基帶通信,執(zhí)行所有的A2D、D2A。
ICE9045基本支持所有的3GPP通信標(biāo)準(zhǔn),首發(fā)時(shí)最高LTE Cat.3,未來會(huì)升級(jí)到LTE Cat.4(軟件編譯更新就是了),WCDMA方面支持最高Cat.24 42Mbps(雙載波64QAM),延續(xù)了i450上的Cat.18 16QAM 2x2 MIMO 28Mbps,不過未來可選升級(jí)到Cat.28 64QAM 2x2 MIMO 84Mbps。如果增加第二個(gè)ICE9245收發(fā)器,還支持4x4 MIMO LTE。
當(dāng)然還有TD-SCDMA、GSM/EDGE,完整支持AMR-WB、VoLTE/IMS語音。
ICE9045包括兩大一小三個(gè)DXP單元,其中兩個(gè)大的最高頻率1.3GHz。Icera的指令集也很有意思,分為兩個(gè)不同的基本集,分別稱為C、D。C就是適合C編譯器的3GPP協(xié)議堆棧,管理物理界面之上的高層功能,是標(biāo)量的,運(yùn)行于DXP1單元之上。
D運(yùn)行在DXP0、DXP2,是私有語言寫的矢量指令集,運(yùn)行于物理層上,正是它配合特定的庫給了Icera基帶靈活配置的能力。
NVIDIA毫不吝嗇地公布了C、D的數(shù)據(jù)路徑,可以看出在LTE配置中一個(gè)核心負(fù)責(zé)所有的反向快速傅立葉變換(FFT)和MIMO矩陣數(shù)學(xué),第二個(gè)核心負(fù)責(zé)速率匹配與解碼,二者負(fù)載基本相同,而且可以通過軟件控制讓每個(gè)核心都運(yùn)行在盡可能低的頻率和電壓上。
面對(duì)高通已經(jīng)獲得廣泛認(rèn)可的MDM9x15、MDM9x25,Icera i500表現(xiàn)如何還有待考驗(yàn)。從展示的原型機(jī)“鳳凰”(Phoenix)來看,Tegra 4i連接基站模擬器后可以很好地實(shí)現(xiàn)LTE Cat.3 100Mbps,升級(jí)到Cat.4還可以接近120Mbps,而這一切都是在出廠兩周的芯片上得到的,前景應(yīng)該不錯(cuò)。
[!--empirenews.page--]
【拍照也有GPU計(jì)算加速】
Tegra 4/4i都配備了名為“Chimera”(不同動(dòng)物各部分構(gòu)成的假想怪獸)的圖像處理器(ISP),部分特性曾在CES 2013上介紹過,現(xiàn)在詳細(xì)看看。
Tegra 4的創(chuàng)新不僅僅是四核A15,更重要的是通過加入新API,可利用GPU加速實(shí)現(xiàn)計(jì)算拍照功能,而不是僅僅依靠傳統(tǒng)的ISP流水線。NVIDIA在這里對(duì)圖像處理進(jìn)行了自主增強(qiáng),額外增加了GPU加速的“計(jì)算攝影拍照架構(gòu)”,首次實(shí)現(xiàn)了HDR全景拍照、HDR靜態(tài)拍照、實(shí)時(shí)物體追蹤。
Chimera的編程部分我們就不多說了,深入的細(xì)節(jié)文檔也尚未公布,你只要知道除了CPU,現(xiàn)在還可以用GPU來實(shí)現(xiàn)很多功能就可以了。值得玩味的是,NVIDIA一直在努力推行CUDA,不知道會(huì)不會(huì)將它引入到Tegra上呢(那得革新GPU架構(gòu))?又或者甚至支持OpenCL?
除了靜態(tài)照片,Chimera引擎也可以在視頻錄制上大展身手,比如說HDR視頻,傳統(tǒng)上需要捕捉兩倍的輸出幀,想得到720p/30fps HDR視頻就得捕捉720p/60fps,曝光也得有兩種,捕捉完成后再合成。NVIDIA就將其簡(jiǎn)化為了單幀,可在CMOS傳感器上(索尼IMX135、Aptina AR0833等等)將高曝光、低曝光圖像重新交錯(cuò)組合成等量的一幀,而且這都是用GPU完成的,算法也是NVIDIA獨(dú)有的。
效果也令人印象深刻,NVIDIA宣稱可以獲得3段式的動(dòng)態(tài)范圍(大約24dB),而且看不出人工合成的痕跡。以前的技術(shù)很容易在移動(dòng)物體周圍出現(xiàn)光暈和殘影,因?yàn)槟鞘怯脙蓚€(gè)不同時(shí)間的幀合成的,NVIDIA HDR視頻里甚至快速運(yùn)動(dòng)的物體都很干凈。
NVIDIA還展示了HDR全景捕捉,使用標(biāo)準(zhǔn)全景云臺(tái)GigaPan Epic 100,當(dāng)然手持拍攝也可以。物體追蹤也做了演示,或者說是增強(qiáng)版的臉部追蹤,攝像頭會(huì)提取物體特征,建立相關(guān)模型,然后進(jìn)行追蹤,不過對(duì)付快速運(yùn)動(dòng)的物體效果不是很好。
NVIDIA的拍照調(diào)試實(shí)驗(yàn)室甚至也向記者開放,他們?cè)谀抢餅樵O(shè)備廠商定制智能手機(jī)CMOS,一起調(diào)試ISP,提升拍照體驗(yàn)。不同房間里到處都是專業(yè)測(cè)試設(shè)備。
【鳳凰:Tegra 4/4i參考樣機(jī)PCB首曝】
芯片廠商為客戶提供參考設(shè)計(jì)方案(FFRD)已經(jīng)是流行趨勢(shì),高通、Intel都在這么做,NVIDIA也不例外,Tegra 4/4i平臺(tái)上就是“鳳凰”(Phoenix),外觀樸實(shí)但規(guī)格不錯(cuò),5寸1080p屏幕,LTE,也很輕薄。
鳳凰其實(shí)有三個(gè)版本:Tegra 4、Tegra 4i加外置DRAM、Tegra 4i PoP整合封裝DRAM。它們對(duì)應(yīng)的PCB是完全相同的,只是處理器不同,而且Tegra 4的上邊多了個(gè)Icera i500獨(dú)立基帶。
下邊兩個(gè)PCB分別是Tegra 4i加外置DRAM、Tegra 4。
[!--empirenews.page--]
以下從右到左分別是Tegra 4i處理器封裝照片、底部照片、搭配爾必達(dá)DRAM。從表面標(biāo)識(shí)可以看到,Tegra 4i不但有Grey這個(gè)代號(hào),還有T8A的內(nèi)部代號(hào)。
不過鳳凰并沒有給人多少機(jī)會(huì)去實(shí)際體驗(yàn),只能等真正的產(chǎn)品了。
【結(jié)語】
Tegra 4無論CPU還是GPU都實(shí)現(xiàn)了巨大的進(jìn)步,在前輩Tegra 3的基礎(chǔ)上更上一層樓。ARM Cortex-A15架構(gòu)有著優(yōu)秀的性能,不過代價(jià)就是功耗高了點(diǎn)。在平板機(jī)里,Nexus 10證明它還是可以接受的,而如果NVIDIA的數(shù)據(jù)可信,A15控制一下頻率也能在智能手機(jī)中立足,功耗甚至可以低于Tegra 3,就是性能優(yōu)勢(shì)也不見了。這不得不手很讓人糾結(jié)。
Icera i500在基帶領(lǐng)域內(nèi)看起來頗有些競(jìng)爭(zhēng)力,可以挑戰(zhàn)一下高通,也可以讓廠商有更多選擇。NVIDIA將其收購之后速度也相當(dāng)快,這么短的時(shí)間里就整合到了Tegra SoC之中,成就了Tegra 4i,實(shí)測(cè)速度也能超過100Mbps。
拍照方面,Chimera ISP架構(gòu)頗具創(chuàng)新力,也展現(xiàn)了GPU加速在移動(dòng)領(lǐng)域的潛力。HDR視頻捕捉也的確很棒,超過了其它方案,物體追蹤也很誘人。
其實(shí)呢,不管架構(gòu)上先進(jìn)與否,一款移動(dòng)芯片要成功就得贏得大量產(chǎn)品設(shè)計(jì)。Nexus 7、Surface RT都是證明,但還不夠。如今的Tegra似乎陷入了一個(gè)瓶頸階段,Tegra 4今年能否再次實(shí)現(xiàn)重大突破還有待觀察,就看能不能把優(yōu)秀的架構(gòu)推進(jìn)到眾多產(chǎn)品中了。