當(dāng)前位置:首頁 > 嵌入式 > 嵌入式硬件

  與傳統(tǒng)的4/8位單片機相比,ARM的性能和處理能力是遙遙領(lǐng)先的。但與之相應(yīng),ARM的系統(tǒng)設(shè)計復(fù)雜度和難度,較之傳統(tǒng)的設(shè)計方法也大大提升了,同時也大大拓展了針對ARM芯片特性進(jìn)行優(yōu)化的空間,例如針對指令流水線的優(yōu)化、針對寄存器分配進(jìn)行的優(yōu)化等。

  ARM在硬件上不支持除法指令,編譯器是通過調(diào)用C庫函數(shù)來實現(xiàn)除法運算的,有許多不同類型的除法程序來適應(yīng)不同的除數(shù)和被除數(shù)。但直接利用C庫函數(shù)中的標(biāo)準(zhǔn)整數(shù)除法程序,根據(jù)執(zhí)行情況和輸入操作數(shù)的范圍,要花費20~100個周期,消耗較多的軟件運行時間。在實時嵌入式應(yīng)用中,對時間參數(shù)較為敏感,故可以考慮如何優(yōu)化避免除法消耗過多的CPU運行時間。

  除法和模運算(/和%)執(zhí)行起來比較慢,所以應(yīng)盡量避免使用。但是,除數(shù)是常數(shù)的除法運算和用同一個除數(shù)的重復(fù)除法,執(zhí)行效率會比較高。在ARM中,可以利用單條MUL指令實現(xiàn)乘法操作。本文將闡述如何用乘法運算代替除法運算,以及如何使除法的次數(shù)最少化。

  1 避免除法運算

  在非嵌入式領(lǐng)域,因為CPU運算速度快、存儲器容量大,除法操作通常都是不加考慮直接使用的。但在嵌入式領(lǐng)域,首先需要考慮的是這些除法操作是否是必須的。以對環(huán)形緩沖區(qū)操作為例,經(jīng)常要用到除法,其實完全可以避免這些除法運算。

  

  假定有一個buffer_size大小的環(huán)形緩沖區(qū),如圖1所示,offset指定目前所在的位置。通過increment字節(jié)來增加offset的值,一般是這樣寫的:

  0ffset=(Offset+increment)%buffer_size;

  效率更高的寫法是:

  offset+=increment;

  if(offset>=buffer_size){

  offset-=buffer_size;

  }

  第一種寫法要花費50個周期,而第二種因為沒有除法運算,只須花費3個周期。這里假定increment

  如果不能避免除法運算,那么就應(yīng)盡量使除數(shù)和被除數(shù)是無符號的整數(shù)。有符號的除法程序執(zhí)行起來更加慢,因為它們先要取得除數(shù)和被除數(shù)的絕對值,再調(diào)用無符號除法運算,最后再確定結(jié)果的符號。

  2 充分利用商和余數(shù)

  許多C語言庫中的除法函數(shù)返回商和余數(shù)。換句話說,每一個除法運算,余數(shù)是可以無償?shù)玫降模粗嗳?。例如,要在屏幕緩沖區(qū)找到偏移量為offset的屏幕位置(x,y),可以這樣寫:

  typeclef struct{

  int x;

  int y;

  }point;

  point getxy_v1(unsigned int offset,unsigned int bytes_per_line){

  point p;

  p.y=offset/lt)ytes_per_line;

  p.x=offset - p.y* bytes_per_line;

  return p;

  }

  這里,似乎對p.x使用減法和乘法,少了一次除法運算;但是,實際上使用模運算或者取余操作效率更高,對getxy_v1改進(jìn)如下:

  point getxy_v2(unsigned int offset,unsigned int bytes_per_line){

  point P;

  P.x=offset%bytes_per_1ine;

  P.y=offset/bytes_per_line;

  return P;

  }

  從下面編譯器的輸出結(jié)果可以看到,只有一次除法調(diào)用。實際上,這個程序要比前面的getxy_vl少4條指令(注意,并不是對所有的編譯器和C庫都有這樣的結(jié)果)。

  getxy_v2

  STMFD r13!,{r4,r14};保存r4,lr人堆棧

  MOV r4,r0 ;賦值后r4保存的為點P基址

  MOV r0,r2 ;r0=bytes_per_line

  BL rt_udiv ;調(diào)用無符號除法例程

 ?。╮0.;r1)=(rl/r0,rl%r0)

  STR r0,[r4,#4] ;P.y=offset/bytes_per_line

  STR rl,[r4,#o] ;P.x=offset%bytes_per_line

  LDMFD r13!,(r4,pc);恢復(fù)上下文,返回

  3 把除法轉(zhuǎn)換為乘法

  在程序中,同一個除數(shù)的除法經(jīng)常會出現(xiàn)很多次。在前面的例子中,bytes_per_line的值在整個程序中都是固定不變的。又如3到2笛卡爾坐標(biāo)變換,其中就使用了同一個除數(shù)兩次:

 ?。▁,Y,x)→(x/z,y/z)

  這種情況下,使用cache指令中的值1/z,并使用1/z的乘法來代替除法運算,效率會更高。另外,要盡可能使用int類型的運算,避免使用浮點運算。

  下面將更加偏重于從數(shù)學(xué)和理論的角度分析,把重復(fù)除法轉(zhuǎn)換成乘法運算。

  下面來區(qū)分精確數(shù)學(xué)意義上的除法和整型除法運算:

  n/d,即整數(shù)n被分成整數(shù)d份,結(jié)果趨向于O(與C語言相同);

  n%d,即n被d除之后的余數(shù),就是n--d(n/d);

  n/d=n·d-1,即真正數(shù)學(xué)意義上的n被d除。

  當(dāng)使用整型除法時,最容易估算d-1值的方法是計算232/d。然后,就可以估算n/d為:

 ?。╪(232/d))/232 (1)

  在執(zhí)行n的乘法時,需要精確到64位。對于這種方法,會出現(xiàn)如下問題:

  為了計算232/d,由于一個unsigned int類型的數(shù)據(jù)放不下232,編譯器要使用64位long long類型的數(shù),而且必須指定除法為(1 ull<<32)/d。這種64位的除法比32位的除法執(zhí)行起來要慢得多。

  如果d碰巧是1,那么232/d就不再適合于un—signed int數(shù)據(jù)類型。

  上面的做法似乎很好,而且解決了這兩個問題。那么,再來看一下用(232一1)/d代替232/d。 令

  s=0xffffffff ul/d (2)

  

  以上n/d-2,q,n/d+1為整數(shù)值,所以可得q=n/d或q=(n/d)一1,即初步估計的結(jié)果q與正確值n/d有可能存在偏差1??梢园l(fā)現(xiàn),通過計算余數(shù)r=n—q·d(O≤r<2d)是比較容易的。下面的代碼糾正了這個結(jié)果:

  r=n--q*d;/*初步估計結(jié)果余數(shù)r的范圍為O≤r<2d*/

  if(r>=d){/*若需要校正*/

  r-=d;/*校正r,使O≤r

  n++;/*相應(yīng)商加1進(jìn)行校正*/

  } /*得正確結(jié)果q=n/d和r=n%d*/

  下面給出一個實例,用上面的算法完成了N個元素的數(shù)組被d除。首先,計算上面所說的s值,然后用乘以5來代替每個被d除的除法。64位的乘是很容易實現(xiàn)的,因為ARM中有一條指令UMULL,可以進(jìn)行2個32位數(shù)相乘,給出一個64位的結(jié)果。

  void scale(

  unsigned int*dest; /*目的數(shù)據(jù)*/

  unsigned int*src; /*源數(shù)據(jù)*/

  unsignedInt d; /*分母d*/

  urlslglaedInt N;) /*數(shù)據(jù)長度*/

  {

  unsigned int s=0xFFFFFFFFu/d;

  do{

  unsigned int n,q,r;

  n=*(src++);

  q=(urtslgrted int)(((unsined tong long)n*s)>>32);

  r=n*d;

  if(r>=d){ /*若需要對商進(jìn)行校正*/

  q++;

  }

  *(dest++)=q;

  }while(--N);

  }

  這里假定除數(shù)和被除數(shù)都是32位的無符號整數(shù)。當(dāng)然,使用32位乘法進(jìn)行16位的無符號數(shù)計算,或者使用1 28位乘法進(jìn)行64位數(shù)計算,運算規(guī)則是一樣的。可以為特定的數(shù)據(jù)選擇最窄的運算寬度。如果數(shù)據(jù)是16位的,那么就設(shè)置s=(216一1)/d,然后用標(biāo)準(zhǔn)的整型乘法來求值q。

  4 結(jié)論

  在嵌入式軟件編程中,為了節(jié)省CPU運行時間,應(yīng)盡可能避免使用除法。對環(huán)形緩沖區(qū)的處理可以不用除法。如果不能避免除法運算,那么應(yīng)盡可能使用除法程序同時產(chǎn)生商n/d和余數(shù)n%d的好處。對于重復(fù)對一除數(shù)d的除法.預(yù)先計算好s=(2k一1)/d,用乘以s的2k位乘法來代替除以d的k位無符號整數(shù)除法,可大大減少由于直接使用除法操作引入的指令周期數(shù)。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉