當(dāng)前位置:首頁 > 單片機 > 單片機
[導(dǎo)讀] 目前,嵌入式多核處理器已經(jīng)在嵌入式設(shè)備領(lǐng)域得到廣泛運用,但嵌人式系統(tǒng)軟件開發(fā)技術(shù)還停留在傳統(tǒng)單核模式,并沒有充分發(fā)揮多核處理器的性能。程序并行化優(yōu)化目前在PC平臺上有一定運用,但在嵌入式平

目前,嵌入式多核處理器已經(jīng)在嵌入式設(shè)備領(lǐng)域得到廣泛運用,但嵌人式系統(tǒng)軟件開發(fā)技術(shù)還停留在傳統(tǒng)單核模式,并沒有充分發(fā)揮多核處理器的性能。程序并行化優(yōu)化目前在PC平臺上有一定運用,但在嵌入式平臺上還很少,另外,嵌入式多核處理器與PC平臺多核處理器有很大不同,因此不能直接將PC平臺的并行化優(yōu)化方法應(yīng)用到嵌人式平臺。本文分別從任務(wù)并行和緩存優(yōu)化兩方面進行并行化優(yōu)化的研究,探索在嵌人式多核處理器上對程序進行并行化優(yōu)化的方法。


1 嵌入式多核處理器結(jié)構(gòu)

嵌人式多核處理器的結(jié)構(gòu)包括同構(gòu)(SymmetrIC)和異構(gòu)(Asymmetric)兩種。同構(gòu)是指內(nèi)部核的結(jié)構(gòu)是相同的,這種結(jié)構(gòu)目前廣泛應(yīng)用在PC多核處理器;而異構(gòu)是指內(nèi)部核的結(jié)構(gòu)是不同的,這種結(jié)構(gòu)常常在嵌入式領(lǐng)域使用,常見的是通用嵌入式處理器+DSP核。本文探究的嵌入式多核處理器采用同構(gòu)結(jié)構(gòu),實現(xiàn)同一段代碼在不同處理器上的并行執(zhí)行。

圖1 ARM SMP處理器結(jié)構(gòu)

在目前嵌入式領(lǐng)域中,使用最為廣泛的為ARM 處理器,因此以ARM 雙核處理器OMAP4430作為研究對象。ARM 對稱多處理(Symmetric Multi—Processing,SMP)結(jié)構(gòu)如圖1所示,根據(jù)程序的局部性原理,每一個處理器都具有私有的內(nèi)存(LOCal Memory),常見的是一級緩存(L1Cache)。然而,多個處理器之間又涉及到相互通信問題,因此在常見的ARM 處理器中使用二級緩存(L2 Cache)來解決這一問題?;趯ΨQ多處理器結(jié)構(gòu),所有的處理器(通常為2的倍數(shù))在硬件結(jié)構(gòu)上都是相同的,在使用系統(tǒng)資源上也是平等的。更重要的是,由于所有的處理器都有權(quán)利去訪問相同的內(nèi)存空間,在共享內(nèi)存區(qū)域中,任何一個進程或者線程都可以運行在任意一個處理器之上,這樣就使得程序的并行化成為可能。2在嵌入式多核平臺上進行并行化優(yōu)化,需要考慮以下問題:

① 并行化程序的性能取決于程序中串行化部分,程序性能不會隨著并行線程數(shù)目的提升而不斷提升;

② 嵌入式多核處理器相對于PC處理器而言,其總線速度較慢,并且緩存(Cache)更小,會造成大量數(shù)據(jù)在內(nèi)存(Memory)和緩存(Cache)問不斷拷貝,因此在進行并行化優(yōu)化的過程中,應(yīng)考慮緩存友好性(Cache friendly);

③ 程序并行化執(zhí)行線程數(shù)目應(yīng)當(dāng)小于或等于物理處理器的數(shù)目,線程過多會造成線程間搶占處理器資源,致使并行化性能下降。

2 OpenMP并行化優(yōu)化

2.1 0penMP工作原理簡介

OpenMP是一個基于共享內(nèi)存模式的跨平臺多線程并行的編程接口。主線程生成一系列的子線程,并將任務(wù)映射到子線程進行執(zhí)行,這些子線程并行執(zhí)行,由運行時環(huán)境將線程分配給不同的物理處理器。默認(rèn)情況下,各個線程獨立執(zhí)行并行區(qū)域的代碼。可以使用work-sharingconstructs來劃分任務(wù),使每個線程執(zhí)行其分配部分的代碼。通過這種方式,使用OpenMP可以實現(xiàn)任務(wù)并行和數(shù)據(jù)并行。

圖2 任務(wù)并行模型

任務(wù)并行模式創(chuàng)建一系列獨立的線程,每一個線程運行一個任務(wù),線程之間相互獨立,如圖2所示。OpenMP使用編譯原語session directive和task directive來實現(xiàn)任務(wù)分配,每個線程可以獨立運行不同的代碼區(qū)域,同時支持任務(wù)的嵌套和遞歸。一旦創(chuàng)建任務(wù),該任務(wù)就可能會在線程池(其大小等于物理線程數(shù)目)中空閑的線程上執(zhí)行。

數(shù)據(jù)并行也就是數(shù)據(jù)級并行,對任務(wù)中處理的數(shù)據(jù)進行分塊并行執(zhí)行,如圖3所示。C語言中的for循環(huán)最適合使用數(shù)據(jù)并行。

圖3 數(shù)據(jù)并行模型

2.2 快速排序算法原理

快速排序算法是一種遞歸分治算法,算法中最為關(guān)鍵的就是確定哨兵元素(pivot data)。數(shù)據(jù)序列中小于哨兵的數(shù)據(jù)將會放在哨兵元素的左側(cè),序列中大于哨兵的數(shù)據(jù)將會被放在哨兵元素的右側(cè)。當(dāng)完成數(shù)據(jù)掃描后,哨兵元素分成的左右兩個部分就會調(diào)用快速排序算法遞歸進行。

快速排序算法中涉及算法的遞歸調(diào)用,會產(chǎn)生大量任務(wù),并且這些任務(wù)相互獨立,非常適合OpenMP的任務(wù)并行模式;另外,就一次快速排序搜索算法而言,哨兵元素對于左右子區(qū)間數(shù)據(jù)容量大小具有決定性作用,考慮到嵌入式平臺的緩存(Cache)空間較小,需要對哨兵元素篩選算法進行優(yōu)化,盡量使得劃分出來的左右子區(qū)間更均衡,滿足負載均衡的要求。

2.3 任務(wù)并行化優(yōu)化

通過對快速排序算法的分析,快速排序是一個遞歸調(diào)用算法,算法的執(zhí)行過程中會產(chǎn)生大量重復(fù)函數(shù)調(diào)用,并且函數(shù)的執(zhí)行相互獨立。對于快速排序的一次掃描運算而言,算法首先確定哨兵元素(pivot),并對數(shù)據(jù)序列進行一次調(diào)整,然后對哨兵元素的左右區(qū)間再次進行遞歸調(diào)用算法。

如下所示,對任務(wù)并行化優(yōu)化針對每次掃描調(diào)整后的左右子區(qū)間,將每個子區(qū)間的運算抽象為一個任務(wù),并通過OpenMP中的任務(wù)并行化原語#pragma omp task實現(xiàn)任務(wù)的并行化執(zhí)行,從而實現(xiàn)了快速排序的任務(wù)并行化優(yōu)化。

任務(wù)空間中的數(shù)據(jù)大小取決于哨兵元素,因此,算法選取的劃分算法(Partition Algorithm)應(yīng)盡量將數(shù)據(jù)序列的劃分均衡化,本文使用簡單劃分算法和三元中值法(Median-of-Three Method)進行測試。

2.4 緩存優(yōu)化

緩存優(yōu)化(Cache friendly)的目標(biāo)是減少數(shù)據(jù)在內(nèi)存和緩存之間的拷貝。對于220個整型數(shù)據(jù)而言,數(shù)據(jù)大小為4 MB,本文的測試平臺()MAP4430的二級緩存為1 MB,需要將數(shù)據(jù)劃分為4個部分。

如下所示,算法將4部分?jǐn)?shù)據(jù)分為4個快速排序任務(wù),4部分任務(wù)并行執(zhí)行,完成后每部分?jǐn)?shù)據(jù)序列排序完成,需要將4部分?jǐn)?shù)據(jù)進行合并形成完成數(shù)據(jù)序列,因此在并行任務(wù)結(jié)束后,需要對數(shù)據(jù)進行歸并排序。

3 并行化性能分析

3.1 實驗環(huán)境介紹

本文采用德州儀器(Texas Instruments)的OMAP4430嵌入式開發(fā)平臺。OMAP443O為嵌入式多核處理器,擁有對稱多處理雙核ARM 處理器(Dual—core ARM Cortex—A、一級緩存32 KB、二級緩存1 MB,嵌入式操作系統(tǒng)采用Ubuntul2.O4內(nèi)核,編譯器為arm—linux—gnueabihf—gCC,使用GNU gprof獲取算法執(zhí)行時間。

3.2 性能測試

如下式所示,采用計算加速比的方式來分析并行優(yōu)化的性能,加速比數(shù)值越大表示算法的并行程度越高,最低為1。性能測試采用4個算法版本,包括串行版本、并行2線程、并行4線程和緩存優(yōu)化版,從不同角度來分析性能。

如圖4所示,從折線圖可以看出,3種并行化優(yōu)化算法相對于串行版本,算法的并行性能都有較大提升,如表1所列,其并行加速比分別為1.30、1.29和1.21。對任務(wù)并行優(yōu)化方案而言,分別使用2線程和4線程版本進行測試,從加速比的分析結(jié)果看來,2線程版本較4線程版本略好。理論上并行線程的數(shù)目越多性能越好,但本文采用OMAP443O只有兩個對稱多處理核心,即使算法擁有4個并行線程,但實際執(zhí)行的線程只有2個,同時4個線程在獲取2個物理處理器時存在競爭關(guān)系,因而造成性能較之2線程版本有所下降。

圖4 算法執(zhí)行時間

評價并行算法優(yōu)劣還需考慮算法的負載均衡性,如表1、表2所列,緩存優(yōu)化方案標(biāo)準(zhǔn)差遠遠小于任務(wù)并行化方案。究其原因,對于任務(wù)并行化方案而言,不同的測試數(shù)據(jù)以及劃分算法(partition)對區(qū)間的劃分有重要影響,從而造成任務(wù)執(zhí)行時間變化范圍很大;對于緩存優(yōu)化方案而言,其實質(zhì)是數(shù)據(jù)并行,其每一個任務(wù)都是根據(jù)緩存大小進行劃分,因此每一個任務(wù)處理的數(shù)據(jù)規(guī)?;疽恢拢恳粋€任務(wù)執(zhí)行的時間更確定,但由于并行任務(wù)執(zhí)行完成后,需要對數(shù)據(jù)進行歸并,造成一定的性能下降。

結(jié)語

本文通過對嵌入式多核處理器硬件結(jié)構(gòu)的分析,從對稱多處理角度對串行快速排序算法進行并行化優(yōu)化,取得了很好的效果。

以ARM 雙核處理器(OMAP4430)作為測試平臺,從任務(wù)并行和緩存優(yōu)化實現(xiàn)并行優(yōu)化,從性能測試的結(jié)果看,任務(wù)并行具有良好的加速比,但負載均衡性差,并行線程數(shù)目不應(yīng)超過物理處理器核的數(shù)目,過多的并行線程競爭處理器資源,造成性能下降。緩存優(yōu)化具有良好的負載均衡性,但需要后續(xù)進行歸并操作,造成性能有所下降。

總之,在嵌入式多核處理器上進行并行化優(yōu)化,一方面要充分發(fā)掘嵌人式多核處理器的并行性能,提高程序的并行性;另一方面也要考慮程序算法的負載均衡性,確保在不同應(yīng)用環(huán)境中程序性能一致。


本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉