2008年兩個重要的專門術語 - 移動性和匯聚性 - 正在以多種方式對無線產(chǎn)業(yè)界施加影響。
客戶需要無論在哪里都能聯(lián)絡,并且享受盡可能快的連接速率,從客戶到滿足客戶要求的多種正在形成的4G標準的開發(fā)人員的眼中,由于要做出一個選擇能適合于整個產(chǎn)業(yè)鏈的所有部分,以致很難評估出完美的產(chǎn)品設計以及實現(xiàn)何種無線標準協(xié)議。
盡管面向4G的關于空時分集,空分復用,波束成形,CDMA與OFDMA . HSPA, LTE, WiMAX, 和IMT-advanced的驅(qū)動器能共存,就如同802.11g/b/n,但收發(fā)器不同的標準及協(xié)議的差別正在變大。
與此同時,通過不同的數(shù)字廣播標準 —DVB-T/H, ISDB-T, DMB-T, T-DMB 和 DAB,各國紛紛樹立起壁壘,且正在為使其成為當?shù)刈罱K的協(xié)議而戰(zhàn)。結果是不可避免(終端)將有多個實現(xiàn)方式,依賴于產(chǎn)品開發(fā)時所處的場合(見圖1)。
圖1:如圖示中中間的部分所示,不同標準的匯聚性將導致它們需要被用在許多相異的應用中。
移動性和匯聚性有這樣的要求,即日常中用戶可能會穿越不同的通訊環(huán)境,為了保持與媒體服務器的連接,能夠在不同的協(xié)議中切換 --- 換句話說,就是能夠支持多模。
多模的要求
如此看來,基帶處理器被要求能夠支持幾種不同的模式,且有能力在它們之間切換。在半導體設備這一級,意味著制造商能實現(xiàn)一個可編程解決方案,在理想情況下整合成主應用處理器,由其創(chuàng)造一個新的增值設備途徑,這遠超出了目前通訊設備的認識范疇。
典型的基帶處理解決方案已經(jīng)著眼于定位多種標準調(diào)制解調(diào)器需求的挑戰(zhàn),它們通過簡單的擴充能更好的操控額外的數(shù)據(jù)處理的能力來完成。
這種設計的主要缺陷是僅僅試圖操作額外的數(shù)據(jù)業(yè)務量,而沒有關注這些額外的數(shù)據(jù)流是如何通過系統(tǒng)的 - 或者更糟糕的是,怎樣才能真正的為它編程。
但是,隨著每一代通訊標準的沿革,基帶處理越來越復雜,而且需要支持越來越多的標準于一個基帶設備上,只是通過單純的擴大設備的數(shù)據(jù)處理業(yè)務來進行設計已經(jīng)不可行。這么做會增加功耗,也影響了電池的壽命。
傳統(tǒng)的可編程基帶方案只是專注于數(shù)據(jù)處理的改善,而疏漏了解決方案的數(shù)據(jù)吞吐和編程能力所產(chǎn)生的重要影響。
因為一直未能確認設計真實的瓶頸,這樣的系統(tǒng)將終結于遠超過所需的復雜性。這樣的復雜性最終減少了電池的壽命,當設備被用于移動時,這似乎是不易覺察的(盡管擁有3G手機的用戶知道這是當前的現(xiàn)實情況);4G標準甚至更加的復雜,如果沒有什么改變,情況只會變得更壞。
新的途徑
有沒有可能使用不同的途徑來應對多模和可編程的挑戰(zhàn)?答案是有,假如所有的三個關鍵設計點,數(shù)據(jù)處理,數(shù)據(jù)流以及編程效率能夠被一個單一的架構解決,以提供機動性同時促使功耗達到優(yōu)化,并且最小化實施時間和成本。
一個新的處理架構已經(jīng)被一家瑞典的公司, Coresonic AB開發(fā)出來,新的架構提供一種能克服傳統(tǒng)DSP架構局限性的可編程基帶解決方案。
通過如此的方式,它僅僅專注于數(shù)據(jù)處理問題,且迎合手持式設備的成本與功耗的要求,由IP來傳送數(shù)據(jù),這樣能與別的公司設備集成在一起提供引人注目的增值產(chǎn)品。
新架構,被稱作單指令多任務(SIMT),能夠達到超長指令字架構所擁有的性能,但只需較低的控制開銷,和更低的程序與內(nèi)存用量。其指令集被優(yōu)化用于基帶處理任務,能顯著的減少固件代碼尺寸,即使對復雜的標準也一樣。
小心的選擇一些不合適軟件完成的操作通過硬件加速是可以被所述架構所容納的,不但可以得到非常有效的運行,而且仍能保證足夠的靈活性以致硬件在不同的標準間得到復用。
一個創(chuàng)新的互聯(lián)方案和內(nèi)存架構能容納高度的并行性,還有在處理器內(nèi)核,內(nèi)存,加速芯片和I/O接口之間高效的通訊,以及最小化數(shù)據(jù)內(nèi)存需求和高效的內(nèi)存訪問。
可編程解決方案為達到效果,需要在各功能的靈活性與性能間尋求折中。調(diào)制解調(diào)器需要基帶處理高度的靈活性,但FEC(前向糾錯)和數(shù)字前端處理通常更合適使用具有較低靈活性的加速器模塊。為了得到基帶處理中所要求的高運算能力,需要使用超長指令字(VLIW)和單指令多數(shù)據(jù)(SIMD)架構。
基于VLIW架構的缺陷是其低效的功率應用,這是因為寬指令需要在每個時鐘周期被取出。另一方面,基于純SIMD的DSP缺乏完成不同的并行運算的可能性,導致了數(shù)據(jù)通道的低利用率。
SMIT架構
SIMT架構利用基帶算法的特性,比基于VLIW/SIMD架構的基帶處理器減少了控制方面的開銷,并且增強了內(nèi)存的利用率。
處理器架構使用向量指令,在SIMD執(zhí)行單元中操作大數(shù)據(jù)集。關鍵是做到每個時鐘周期僅有一條指令執(zhí)行,但允許并行執(zhí)行若干個操作,如同向量指令可以在SIMD單元上持續(xù)運行數(shù)個時鐘周期。
這種方法導致一定程度的等效于VLIW處理器的并行性,卻無需因為需要龐大的控制通道所帶來的開銷。調(diào)制解調(diào)器很大程度上,由在巨大的向量型數(shù)據(jù)上所執(zhí)行的操作組成,用于獲得一個擁有高利用率低開銷運行單元的處理器。
例如,當CMAC(復數(shù)乘加器)執(zhí)行FFT的一層運算時,整型數(shù)據(jù)通道能夠運行操作系統(tǒng)任務;當加速維特比解碼器以最大吞吐速率并行執(zhí)行時,CALU(復數(shù)算術邏輯元)能完成導頻的提取。
要想能充分利用SIMT的架構,幾個關鍵組件是必須的:高效的向量執(zhí)行單元,一個匹配的內(nèi)存機制,并行的內(nèi)存尋址系統(tǒng),以及有能力管理多個線程的控制核心。
SIMT架構利用多重復數(shù)SIMD執(zhí)行簇,如4路復數(shù)乘加器(MAC)和4路復數(shù)算術邏輯單元(ALU)。每個SIMD簇能夠獨立于其它的執(zhí)行單元處理一個任務。
為了能協(xié)同各向量的操作,一個分布式內(nèi)存被使用。系統(tǒng)的內(nèi)存被分割成若干個具有獨立的地址產(chǎn)生單元的內(nèi)存段,與片上網(wǎng)絡一起提高了內(nèi)存部分的功率效率。
片上的網(wǎng)絡由受限的四通開關來實現(xiàn),直接受軟件的控制。因為允許軟件工具使用靜態(tài)調(diào)度算法,所以無需仲裁器且其性能是可以充分預期的。
所述處理器是由RISC內(nèi)核控制的,它包含指令分發(fā)邏輯和支持多上下文的功能。RISC內(nèi)核執(zhí)行所有的控制流功能以及整數(shù)型指令。
SIMT處理器管理所有的復數(shù)型處理函數(shù),這些函數(shù)介于ADC/DAC和FEC單元之間。處理器在RISC內(nèi)核和一個數(shù)字前端加速器外增加了兩個SIMD單元,一個是4路CMAC,另一個是4路CALU。
SIMT架構的處理器已經(jīng)在實驗室的環(huán)境中得以實現(xiàn)。這個開發(fā)出的芯片總共包含1.5M比特內(nèi)存,被分配為43k word用于復數(shù)存儲器,4k word用于整數(shù)存儲器,2k word用于程序存儲器。當單個的向量指令執(zhí)行計算時,程序存儲器的利用率是非常高的,如執(zhí)行一個向量的復數(shù)點乘,或一個完整的FFT運算層。
本架構合適于在典型的僅有2k word的程序存儲空間和少于8k word的但完整的WiMAX協(xié)議棧內(nèi)執(zhí)行完整的DVB-T/H協(xié)議。
可編程能力
可編程能力賦予了硬件的重利用不僅僅在于不同的無線通訊標準之間,還包括不同的處理流程部分之間。通過硬件的復用,可編程的解決方案比硬件連線的方案減小了硅片面積,甚至比只需實現(xiàn)單一標準的硬件連線方案更小。更小的硅片也導致了更低的功耗,這是因為減少了漏電及片上通訊的功耗。
使用本文所述的SIMT架構的面向移動WiMAX和 DVB-T/H所開發(fā)的處理器已經(jīng)在一個完整的接收器上得到了實現(xiàn)。結果是 - 相比于尖端的硬件方案,用于運行31.67Mb/s的DVB-T業(yè)務的基于SIMT的處理器估計少了18%的硅片面積和21%的功耗,當與可編程方案比較,典型的差異在尺寸的50%和70%之間。
通過算法映射,調(diào)度算法,以及在實際硬件上進行的模擬和測試,可以實現(xiàn)對WiMAX的支持。與其他可稱得算是尖端的解決方案相比較,基于SIMT架構的方案被證明具有更高效的面積和功率利用率。
除了借助于現(xiàn)代合成技術和后端工具的低功率物理材料設計工藝之外,低功耗是通過結構級的設計而不是通過使用特殊的低功耗工藝(器件)獲得的。
通過使用向量指令和分散的內(nèi)存系統(tǒng),增強了數(shù)據(jù)和控制的局部性,因此SIMT架構減少了控制的開銷。內(nèi)存訪問功耗由于僅使用小型單端口存儲器和減少了內(nèi)存訪問量而減少。
不采用任何優(yōu)化和現(xiàn)代功率控制技術,在實驗室中,完全可編程的DVB-T/H 基帶處理器原型機被實現(xiàn)在11平方毫米,0.12微米的CMOS芯片上,它包括1.5M比特的單端口內(nèi)存和200k邏輯門電路。
DVB-T/H基帶原型機當承載最大數(shù)據(jù)流,31.67Mb/s時所測出的功耗為70毫瓦,運行頻率為70MHz。在原型機上所作的工作說明本架構在尺寸和功耗上都強于以往的非可編程 DVB-T/H解決方案,甚至可以忽略相當程度的在結構設計上所做的優(yōu)化。
SIMT付諸實現(xiàn)
SIMT描述的架構和圖示過去一直是實驗室工作的一部分?,F(xiàn)在可用于完全硬件的方案中,這些方案被用于無線半導體制造業(yè)中,使用Coresonic公司的LeoCore工藝把完整的WiMAX基帶功能整合到WiMAX個人可攜式設備中(見圖2)。
圖2:Coresonic公司所提供完整解決方案的WiMAX個人便攜式設備,從RF接口直到CPU中運行的MAC層接口。
此設備支持移動WiMAX802.16e-2005,移動系統(tǒng)概要1.4版, 此版本也支持其他的模式,如802.16d和802.16j.
設備執(zhí)行所有從ADC/DAC接口到FEC的工作,包括數(shù)字前端信號調(diào)節(jié),同步,MIMO信道估計/補償,糾錯和卷積碼。
圖中所有的構建方塊實現(xiàn)了從RF接口至CPU上運行的MAC層完整的解決方案;這個密集處理陣列由硬件完成用以把MAC CPU的負荷減到最小。除了硬件之外,也提供了固件來支持多種不同的標準,更進一步減少了開發(fā)的時間和風險。
結論
綜合地說,本文所述新的SIMT架構為整合出高效的復合基帶處理器提供了一個方法。作為這個方法的一個部分,有著大量核心構建塊,圍繞它們補充有額外的加速器,接口和存儲塊來構建所需要的方案。
本架構克服了數(shù)據(jù)處理,數(shù)據(jù)流和易編程性的挑戰(zhàn),展示了一個極精煉的4G基帶解決方案。其效果可使一個完整的解決方案尺寸達到其它方案中高速指令緩存器一樣小,且只需很低的時鐘速率,但提供了更高的功率效率。
通過使用這樣一種經(jīng)過特別優(yōu)化的用于多模無線基帶處理的架構,可編程解決方案將能支持4G等多種無線標準,如WiMAX,而功率和空間利用率相當于或優(yōu)于硬件解決方案。
基于SIMT架構的處理器可以單指令流并行處理 - 消除了為支持多標準而產(chǎn)生的對多個DSP的需要 - 且能與設計者自己獨有的產(chǎn)品設計結合在一起來提供一個高附加值的組件。