什么是異構(gòu)多處理系統(tǒng),為什么需要異構(gòu)多處理系統(tǒng)
早期嵌入式處理系統(tǒng)通常由一個(gè)微控制器和一系列外設(shè)構(gòu)成。這些系統(tǒng)通常用來(lái)完成獲取少量數(shù)據(jù)、處理數(shù)據(jù)、做出決策、基于決策結(jié)果輸出信息等工作。在某些情況下會(huì)實(shí)現(xiàn)簡(jiǎn)單的人機(jī)交互接口如讀取鍵盤并顯示結(jié)果。處理需求、同時(shí)產(chǎn)生需求,以現(xiàn)在的標(biāo)準(zhǔn)來(lái)看似乎微不足道。現(xiàn)代嵌入式系統(tǒng)通常需要處理和分析十億字節(jié)級(jí)的海量數(shù)據(jù),而且常常在確定性和低延時(shí)運(yùn)算上還有一些額外要求。許多應(yīng)用還要求系統(tǒng)在滿足相關(guān)行業(yè)標(biāo)準(zhǔn)的同時(shí)可靠符合可靠性和安全性要求。
目前,似乎還不可能在單一處理器上同時(shí)滿足處理高帶寬數(shù)據(jù)、執(zhí)行系統(tǒng)應(yīng)用程序、響應(yīng)實(shí)時(shí)請(qǐng)求并滿足行業(yè)安全標(biāo)準(zhǔn)。然而,多核異構(gòu)芯片卻可以實(shí)現(xiàn)這些功能。這樣的設(shè)備具有多個(gè)處理單元,每一個(gè)單元都有能力負(fù)責(zé)處理一個(gè)或多個(gè)前述需求,我們稱這樣的設(shè)備為異構(gòu)處理系統(tǒng)。
1 什么是異構(gòu)多處理呢?
一個(gè)異構(gòu)多處理系統(tǒng)由不同類型的多個(gè)單核心或多核心處理器構(gòu)成,異構(gòu)多核處理系統(tǒng)最簡(jiǎn)單的形式是由一個(gè)多核處理器和GPU組成。然而,現(xiàn)代科技讓一顆芯片上的異構(gòu)多處理系統(tǒng)包含以下模塊:
①多核應(yīng)用處理器(Multicore Applications Processors);
②多核圖形處理器(Multicore Graphics Processors;
③多核實(shí)時(shí)處理器(Multicore Real-Time Processors);
④平臺(tái)管理單元(Platform Management Unit);
⑤配置和安全系統(tǒng)(Configuration and Security Unit);
⑥在FPGA可編程邏輯上實(shí)現(xiàn)特定多核處理器。
本文所引用的異構(gòu)多核處理系統(tǒng)包括上述的多個(gè)分類。使用FPGA邏輯實(shí)現(xiàn)多核處理器的優(yōu)勢(shì)是:它可以創(chuàng)建自定義特殊應(yīng)用處理器,通過(guò)并行Pipes和多Pipeline stages來(lái)實(shí)現(xiàn)二維并行數(shù)據(jù)處理,使得在一個(gè)時(shí)鐘周期里可以完成大量的計(jì)算。
多核處理器可以設(shè)計(jì)用來(lái)執(zhí)行通用計(jì)算或者是專用計(jì)算。和通用處理器執(zhí)行相同功能相比較,專用計(jì)算在減小硅片封裝、提高單時(shí)鐘周期吞吐率、低功耗的同時(shí)能實(shí)現(xiàn)數(shù)據(jù)優(yōu)化處理。
2 含可編程邏輯的異構(gòu)處理系統(tǒng)演變
Xilinx在2002年推出了第一款帶PowerPC405應(yīng)用處理器的FPGA,在接下來(lái)的FPGA里,Xilinx在單片內(nèi)集成了更高性能的 PowerPC單核或雙核處理器。不像現(xiàn)今產(chǎn)品代的器件處理系統(tǒng)是一個(gè)集成的ASSP(包含處理器、互聯(lián)、存儲(chǔ)控制器和外設(shè)),早期產(chǎn)品需要大量的 FPGA資源將各部分資源連接在一起形成一個(gè)ASSP-like的解決方案。
2011年,Xilinx推出了Zynq-7000系列高集成度的器件,它集成了ARM Cortex-A9 MPCore處理器、互聯(lián)單元、內(nèi)存控制器、外設(shè)以及基于Xilinx 7系列FPGA的可編程邏輯。有人肯能會(huì)認(rèn)為Zynq-7000系列是第一代“異構(gòu)多處理”系統(tǒng),因?yàn)槠系目删幊踢壿嬍沟脛?chuàng)建和使用專用處理單元成為現(xiàn)實(shí)。
3 含可編程邏輯的最新一代異構(gòu)處理系統(tǒng)
2015年,Xilinx發(fā)布并且開(kāi)始供貨新一代異構(gòu)多處理器件Zynq UltraScale+ MPSoC。之前的器件集成了可編程邏輯和一個(gè)或多個(gè)應(yīng)用處理器,Zynq UltraScale+ MPSoC器件集成了:
①多核應(yīng)用處理器:四核ARM Cortex-A53應(yīng)用處理器;
②多核圖形處理器:雙核ARM Mali-400圖形處理器;
③多核實(shí)時(shí)處理器:雙核ARM Cortex-R5實(shí)時(shí)處理器,可同步運(yùn)行安全性要求苛刻的應(yīng)用;
④平臺(tái)管理單元:一致性三冗余處理器用于power、錯(cuò)誤管理和功能安全管理;
⑤配置和安全單元:一致性三冗余處理器用于系統(tǒng)配置和安全管理;
⑥FPGA可編程邏輯:用戶可編程邏輯用于定制處理器、處理單元和外設(shè)。
Zynq UltraScale+ MPSoC Block Diagram
多核應(yīng)用處理器是傳統(tǒng)的用于通用計(jì)算的重負(fù)載處理器。這些處理器一般工作在SMP模式,運(yùn)行一個(gè)Linux或Andriod操作系統(tǒng),當(dāng)然也支持虛擬管理運(yùn)行多操作系統(tǒng)。
圖形處理單元是繼浮點(diǎn)運(yùn)算單元之后最流行的協(xié)處理器。GPU從應(yīng)用處理器分擔(dān)圖形處理負(fù)載,實(shí)現(xiàn)復(fù)雜的用戶界面和復(fù)雜的圖形渲染。對(duì)Andriod或 Windows CE之類的操作系統(tǒng)而言,這些都是必須的基本功能。通用目的GPU(GPGPU)除了圖形處理,還可以勝任數(shù)據(jù)陣列通用計(jì)算。
實(shí)時(shí)處理器可以低延時(shí)響應(yīng)事件,和應(yīng)用處理器比較通常也更具確定性。在大多數(shù)情況下會(huì)運(yùn)行支持低延時(shí)中斷處理和確定性應(yīng)答的實(shí)時(shí)操作系統(tǒng)。在功能安全性應(yīng)用中,實(shí)時(shí)處理器通常會(huì)運(yùn)行在雙核鎖步模式下,這樣可以檢測(cè)雙處理器中一個(gè)處理器出現(xiàn)的錯(cuò)誤。
平臺(tái)管理單元負(fù)責(zé)管理關(guān)鍵的系統(tǒng)功能和服務(wù)。這些功能包括系統(tǒng)錯(cuò)誤處理、功耗管理和功能安全任務(wù)等。作為系統(tǒng)的心臟,該單元不容失敗。因此,這里使用了包含表決邏輯的三冗余處理器,這使得即使有一個(gè)處理器核發(fā)生錯(cuò)誤事件,子系統(tǒng)也可以繼續(xù)運(yùn)行。
配置和安全單元負(fù)責(zé)系統(tǒng)配置,包括加載處理器第一級(jí)Bootloader、可編程邏輯的配置bit stream,程序代碼和bit文件均有可選的加密認(rèn)證和解密功能。配置和安全單元還可提供持續(xù)的安全監(jiān)控,比如過(guò)壓或欠壓、低溫或高溫、試圖提取系統(tǒng)信息訪問(wèn)等。
片上可編程邏輯為異構(gòu)處理帶來(lái)了充分的靈活性??梢酝ㄟ^(guò)添加額外的現(xiàn)成的軟核來(lái)處理特殊應(yīng)用的計(jì)算任務(wù),也可以在不同層級(jí)添加多pipeline和多pipeline stage自定義軟核實(shí)現(xiàn)數(shù)據(jù)流的大規(guī)模并行處理。
4 異構(gòu)多處理系統(tǒng)實(shí)例
機(jī)器人拾取和放置裝配線是一個(gè)很常見(jiàn)的機(jī)器視覺(jué)和控制應(yīng)用實(shí)例,這個(gè)應(yīng)用通常有以下基本功能:
①高分辨率相機(jī)視頻采集系統(tǒng);
②包括亮度對(duì)比度調(diào)節(jié)、失真校正和消除死點(diǎn)等功能的視頻圖像處理;
③目標(biāo)檢測(cè)和識(shí)別;
④標(biāo)記組件在裝配中正確位置的算法決策;
⑤機(jī)器手臂運(yùn)動(dòng)路徑選擇;
⑥電機(jī)驅(qū)動(dòng)控制;
⑦安全事件檢測(cè)和關(guān)機(jī);
⑧用于狀態(tài)顯示和系統(tǒng)控制的圖形用戶界面;
⑨配置和安全管理。
上述的每一個(gè)功能都可能需要特定的處理能力,比如,讓通用處理器來(lái)處理實(shí)時(shí)HD圖像,處理器很容易就會(huì)負(fù)載過(guò)重?zé)o法在特定時(shí)間完成處理。[!--empirenews.page--]
那么,就讓我們考慮使用這種異構(gòu)多處理系統(tǒng)實(shí)現(xiàn)可能的解決方案。為了有助于更加形象的理解,Xilinx將會(huì)以Zynq UltraScale+ MPSoC控制機(jī)器人系統(tǒng)在平板電腦上玩紙牌游戲的例子來(lái)詮釋。系統(tǒng)的部分功能已經(jīng)實(shí)現(xiàn)并在“Embedded World 2016”展會(huì)上展示。
4.1 視頻獲取和處理
1080P60視頻流要求3Gbps(373MB/s)的數(shù)據(jù)率,視頻流路徑上需要做的處理可能包括:亮度、對(duì)比度調(diào)節(jié),白平衡,失真校正,死點(diǎn)剔除等。這些bit級(jí)處理用可編程邏輯完成非常高效,無(wú)需處理器太多參與。
4.2 目標(biāo)檢測(cè)和識(shí)別
初始對(duì)象檢測(cè)通常需要掃描整幅圖像尋找類似細(xì)節(jié)目標(biāo)輪廓之類的關(guān)鍵特征,這項(xiàng)功能一般由可編程邏輯實(shí)現(xiàn)。一旦目標(biāo)被判定為疑似目標(biāo),那么就可能需要執(zhí)行更為復(fù)雜的算法對(duì)目標(biāo)進(jìn)行更進(jìn)一步的決策判定。應(yīng)用處理器通常負(fù)責(zé)目標(biāo)識(shí)別的下一級(jí)數(shù)據(jù)量變小但算法更加復(fù)雜的處理。
在這個(gè)機(jī)器人紙牌游戲案例中,所有的圖像都是通過(guò)可編程邏輯掃描,識(shí)別紙牌邊界和定位游戲紙牌,以及紙牌的排列和花色。隨著數(shù)據(jù)量明顯降低,紙牌排列和邊界圖像被遞交給應(yīng)用處理器通過(guò)圖像識(shí)別算法來(lái)識(shí)別排列和花色。
4.3 算法決策
算法決策一般是很復(fù)雜的處理,通常通用應(yīng)用處理器可以很好的完成。在我們的例子里,新牌打出的時(shí)候觸發(fā)應(yīng)用處理器計(jì)算新的關(guān)于牌的角色和運(yùn)動(dòng)可能的決策集。
4.4 運(yùn)動(dòng)路徑選擇
兩點(diǎn)之間,直線最短,這樣的路徑會(huì)導(dǎo)致目標(biāo)在兩個(gè)端點(diǎn)之間發(fā)生沖突。運(yùn)動(dòng)路徑通常被分為多段,并且需要從傳統(tǒng)的笛卡爾坐標(biāo)系中翻譯到機(jī)器人運(yùn)行系統(tǒng)坐標(biāo)系。在我們的多核異構(gòu)系統(tǒng)中,這既可以通過(guò)應(yīng)用處理器完成也可以通過(guò)實(shí)時(shí)處理器完成。
機(jī)器人紙牌游戲相對(duì)而言會(huì)比較簡(jiǎn)單,因?yàn)樵谄桨咫娔X上運(yùn)動(dòng)路徑?jīng)]有潛在的障礙物。我們?cè)趹?yīng)用實(shí)例里選擇了Delt機(jī)器人,Delt機(jī)器人結(jié)構(gòu)通常是三個(gè)并聯(lián)手臂連接到一個(gè)和受動(dòng)器相關(guān)的通用關(guān)節(jié)執(zhí)行器上。因此,受動(dòng)器在3D笛卡爾坐標(biāo)系中的運(yùn)動(dòng)必須翻譯成三個(gè)獨(dú)立馬達(dá)的運(yùn)動(dòng)矢量,在這個(gè)應(yīng)用中所需的 x,y,z坐標(biāo)參數(shù)傳給實(shí)時(shí)處理器來(lái)計(jì)算三個(gè)機(jī)械手臂各自的運(yùn)動(dòng)路徑。
4.5 電機(jī)驅(qū)動(dòng)控制
電機(jī)控制算法用于控制加速、正常運(yùn)行和減速,對(duì)機(jī)械約束允許的最小運(yùn)動(dòng)時(shí)間進(jìn)行優(yōu)化,確保在加減速的過(guò)程中不會(huì)對(duì)部件造成損害,減小能量消耗等等。上述計(jì)算和運(yùn)動(dòng)驅(qū)動(dòng)一起,通常都是通過(guò)實(shí)時(shí)處理器來(lái)實(shí)現(xiàn),實(shí)時(shí)處理器在這些方面體現(xiàn)出卓越的性能,在我們的例子里也是如此。實(shí)時(shí)處理器工作在鎖步模式下來(lái)增加可靠性。
4.6 安全事件檢測(cè)和關(guān)機(jī)
安全事件可以是人進(jìn)入機(jī)器人視野,而機(jī)器人可能會(huì)對(duì)人類造成傷害,能夠識(shí)別這一事件并且在一定程度上快速響應(yīng)保護(hù)人類對(duì)系統(tǒng)而言至關(guān)重要。我們機(jī)器人紙牌運(yùn)動(dòng)員在其周圍構(gòu)建了一個(gè)紅外線墻,當(dāng)某一光束中斷,機(jī)器人的電源會(huì)馬上關(guān)閉,然后系統(tǒng)會(huì)立馬停止。在這個(gè)例子里,可以使用三冗余平臺(tái)管理單元,這個(gè)高度可靠的處理單元可以接收來(lái)自紅外線墻的輸入,在事件檢測(cè)時(shí)關(guān)閉機(jī)器人。
4.7 圖形用戶接口
圖形用戶接口(GUIs)通常運(yùn)行在Linux操作系統(tǒng)上層,Linux支持從基本的窗口管理器擴(kuò)展到完整桌面環(huán)境。
這個(gè)紙牌機(jī)器人系統(tǒng)需要顯示紙牌桌界面,實(shí)時(shí)預(yù)覽HD相機(jī)圖像,紙牌排列和花色檢測(cè)窗口顯示以及游戲狀態(tài)窗口等等。Ubuntu桌面環(huán)境提供了一個(gè)很好的平臺(tái),在這上面前述內(nèi)容都可以實(shí)現(xiàn)很好的顯示,并且可以通過(guò)這些用戶界面控制游戲。多核應(yīng)用處理器是運(yùn)行Linux和Ubuntu桌面的完美選擇,集成的多核GPU用于融合顯示2D、3D和視頻數(shù)據(jù)。
4.8 配置和安全
處理系統(tǒng)需要啟動(dòng)操作系統(tǒng)和應(yīng)用程序,可編程邏輯也需要配置。開(kāi)發(fā)者越來(lái)越希望保護(hù)他們的代碼和知識(shí)產(chǎn)權(quán)核不被競(jìng)爭(zhēng)對(duì)手和黑客獲取,因此代碼和配置數(shù)據(jù)的加密和驗(yàn)證對(duì)確保代碼正確加載至關(guān)重要。一旦運(yùn)行,系統(tǒng)就需要保護(hù)免受外界影響。
在這個(gè)例子里面,配置和安全單元在紙牌游戲運(yùn)行之前執(zhí)行驗(yàn)證和解密代碼及配置數(shù)據(jù)。燒錄的E-Fuses可以保護(hù)配置和數(shù)據(jù)不能通過(guò)JTAG之類的接口回讀。
系統(tǒng)攻擊可能會(huì)導(dǎo)致信息泄露或者不正常的運(yùn)行。這些攻擊可能包括過(guò)壓/欠壓或者是超高溫/超低溫等,這些攻擊可以被檢測(cè)到并按需鎖定系統(tǒng)。
5 總結(jié)
早期的嵌入式系統(tǒng)通常包含一個(gè)或幾個(gè)微處理器來(lái)處理包括用戶接口、數(shù)據(jù)采集、數(shù)據(jù)處理、外部控制和應(yīng)用處理等各種各樣的功能。接下來(lái)的各代產(chǎn)品帶來(lái)更高性能的處理器、多核處理器、專用處理器和實(shí)時(shí)處理器。FPGA最初以膠合邏輯角色出現(xiàn),隨著他們邏輯量變大,已經(jīng)用于實(shí)現(xiàn)額外的外設(shè)、狀態(tài)機(jī)和大規(guī)模并行數(shù)據(jù)處理。最新一代Xilinx Zynq UltraScale+ MPSoC是一個(gè)單片異構(gòu)多處理系統(tǒng),它由多核應(yīng)用處理器、多核圖形處理器、多核實(shí)時(shí)處理器、一個(gè)平臺(tái)管理單元、一個(gè)配置和安全管理單元以及可實(shí)現(xiàn)多處理組件的編程邏輯組成。這樣的器件使得軟件和硬件都可以根據(jù)特定應(yīng)用完全定制來(lái)充分滿足目標(biāo)嵌入式應(yīng)用的要求。