多線程是一種基于硬件或軟件的處理技術,它的首要目標是計算型工作中利用并發(fā)來提高性能。多線程也可以用于區(qū)別各種任務,以便可以將優(yōu)先權分配給更多時間敏感的流量,如語音、視頻或關鍵數(shù)據(jù)。而公認的基于軟件的多線程技術,如任務切換和基于軟件的線程調度已經存在了相當一段時間,很少有人知道基于硬件的多線程的歷史?;谟布亩嗑€程技術其實已經存在了相當長一段時間,其實現(xiàn)可以追溯到20世紀60年代的CDC6600。在CDC6600電腦中,10個硬件線程被用來保證從I/O處理器到約16個外圍設備的響應時間。這個例子的處理器運行速度遠遠超過了許多I/O設備,是一個充分利用多線程優(yōu)勢的典型應用,因為空閑處理時間可以被從線程到線程切換的有益工作所取代。在70年代,Denelcor HEP機是在CPU內,而不是在I/O實際執(zhí)行線程切換。類似上例,最終結果是每個周期的指令(IPC)有了顯著改善。之后10年推出的其他幾個系統(tǒng)和學術研究進一步展示了硬件多線程的好處。
今天的市場上有許多多線程處理器。英特爾公司已經利用其超線程技術將該技術引入高端計算應用領域。此外,其他許多SoC制造商,如Broadcom、Lantiq、Mobileye、NetLogic Microsystems、PMC-Sierra、Ralink Technology和Sigma Designs也交付了上百萬個采用多線程處理器的產品。許多這樣的SoC都采用了基于業(yè)界標準MIPS架構的多線程MIPS32 34K系列內核或多線程、多處理MIPS32 1004K一致處理系統(tǒng)(CPS)。目前硬件多線程已經成為主流應用,并越來越被視為SoC設計中實現(xiàn)最佳性能的有效方法。
用多線程提高流水線利用率
如前所述,增加一個給定單線程處理器的IPC數(shù)量是一個主要目標。通常情況下,即使是非常高性能的處理器也有大量時間閑置,目的是等待數(shù)據(jù)到達。常見的情況是,帶有共享存儲系統(tǒng)先進處理器需花50%的時間等待數(shù)據(jù)在緩存未中(cache miss)后返回。此數(shù)據(jù)檢索的等待時間可能會持續(xù)幾十個周期,在極端情況下甚至是數(shù)百個周期。無論數(shù)量多少,處理器在此期間做的都是無效工作。多線程處理器可以在多個線程之間切換以利用這些閑置的周期。這些周期現(xiàn)在可以用來自其他線程的有用指令填滿,從而避免未使用的周期白白浪費。這最終將獲得更好的流水線利用率并提升系統(tǒng)的吞吐量。
確保線程切換效率的一個關鍵環(huán)節(jié)是怎樣進行線程相關信息或語境的管理。當映射到一個線程時,每個任務都有相關的上下文信息,如程序計數(shù)器和寄存器信息子集,這些信息是以硬件加載和更新的。在單線程處理器中,由于處理器在線程之間切換,這些上下文必須導入(swapped in)或導出。當在線程之間變換時,需要有與保存和恢復操作有關的額外處理。這種負擔可能會變得非常繁重,尤其是采用高語境(high context)切換。多線程處理器支持由每個硬件支持的線程的完整上下文存儲,無需保存和恢復操作。這種機制支持切換線程或上下文的零周期開銷。
圖1顯示了多線程是如何提高流水線利用率的基本機制。在這種情況下,在不同的時間點有三個線程出現(xiàn)了緩存未中。在這些線程暫停(stall)期間,其他線程在同一條流水線上做著有用的工作,從而增加了IPC。
MIPS多線程技術
MIPS科技的多線程技術基于兩個層次框架,涉及虛擬處理單元(VPE)和線程上下文(TC),支持每個周期的線程切換。每個多線程內核多達可支持兩個VPE,它們共享其他硬件資源中的一條流水線。不過,由于每個VPE可以有自己針對高速緩存的轉換后備緩沖器(Translation Look-aside Buffer,TLB),因此它們都可作為針對一個SMP Linux操作系統(tǒng)的兩個獨立處理器出現(xiàn)。對于更細粒度的線程處理應用,每個VPE可以支持多個TC。這些TC共享一個執(zhí)行單元,但各有各的程序計數(shù)器和內核寄存器文件,以便每個TC都可以處理來自軟件的線程。34K內核多達可以支持分配在兩個VPE上的九個TC,在運行時進行優(yōu)化和分區(qū)。利用最小的芯片面積可執(zhí)行MIPS多線程功能。