40 年代開始的現代計算機發(fā)展歷程可以分為兩個明顯的發(fā)展時代:串行計算時代、并行計算時代。每一個計算時代都從體系結構發(fā)展開始,接著是系統(tǒng)軟件(特別是編譯器與操作系統(tǒng))、應用軟件,最后隨著問題求解環(huán)境的發(fā)展而達到頂峰。創(chuàng)建和使用并行計算機的主要原因是因為并行計算機是解決單處理器速度瓶頸的最好方法之一。并行計算機是由一組處理單元組成的,這組處理單元通過相互之間的通信與協(xié)作,以更快的速度共同完成一項大規(guī)模的計算任務。因此,并行計算機的兩個最主要的組成部分是計算節(jié)點和節(jié)點間的通信與協(xié)作機制。并行計算機體系結構的發(fā)展也主要體現在計算節(jié)點性能的提高以及節(jié)點間通信技術的改進兩方面。60 年代初期,由于晶體管以及磁芯存儲器的出現,處理單元變得越來越小,存儲器也更加小巧和廉價。這些技術發(fā)展的結果導致了并行計算機的出現,這一時期的并行計算機多是規(guī)模不大的共享存儲多處理器系統(tǒng),即所謂大型主機(Mainframe)。
IBM360 是這一時期的典型代表。到了60 年代末期,同一個處理器開始設置多個功能相同的功能單元,流水線技術也出現了。與單純提高時鐘頻率相比,這些并行特性在處理器內部的應用大大提高了并行計算機系統(tǒng)的性能。伊利諾依大學和Burroughs 公司此時開始實施IlliacIV 計劃,研制一臺64 個CPU 的SIMD 主機系統(tǒng),它涉及到硬件技術、體系結構、I/O 設備、操作系統(tǒng)、程序設計語言直至應用程序在內的眾多研究課題。不過,當一臺規(guī)模大大縮小了的16CPU 系統(tǒng)終于在1975 年面世時,整個計算機界已經發(fā)生了巨大變化。首先是存儲系統(tǒng)概念的革新,提出虛擬存儲和緩存的思想。IBM360/85 系統(tǒng)與360/91是屬于同一系列的兩個機型,360/91 的主頻高于360/85,所選用的內存速度也較快,并且采用了動態(tài)調度的指令流水線;但是,360/85 的整體性能卻高于360/91,唯一的原因就是前者采用了緩存技術,而后者則沒有。其次是半導體存儲器開始代替磁芯存儲器。最初,半導體存儲器只是在某些機器被用作緩存,而CDC7600 則率先全面采用這種體積更小、速度更快、可以直接尋址的半導體存儲器,磁芯存儲器從此退出了歷史舞臺。與此同時,集成電路也出現了,并迅速應用到了計算機中。元器件技術的這兩大革命性突破,使得IlliacIV 的設計者們在底層硬件以及并行體系結構方面提出的種種改進都大為遜色。
1976 年CRAY-1 問世以后,向量計算機從此牢牢地控制著整個高性能計算機市場15 年。CRAY-1 對所使用的邏輯電路進行了精心的設計,采用了我們如今稱為RISC 的精簡指令集,還引入了向量寄存器,以完成向量運算。這一系列全新技術手段的使用,使CRAY-1 的主頻達到了80MHz。微處理器隨著機器的字長從4 位、8 位、16 位一直增加到32 位,其性能也隨之顯著提高。正是因為看到了微處理器的這種潛力,卡內基- 梅隆大學開始在當時流行的DECPDP11 小型計算機的基礎上研制成功一臺由16 個PDP11/40 處理機通過交叉開關與16 個共享存儲器模塊相連接而成的共享存儲多處理器系統(tǒng)C.mmp。
從80 年代開始,微處理器技術一直在高速前進。稍后又出現了非常適合于SMP 方式的總線協(xié)議,而伯克利加州大學則對總線協(xié)議進行了擴展,提出了Cache 一致性問題的處理方案。從此,C.mmp 開創(chuàng)出的共享存儲多處理器之路越走越寬;現在,這種體系結構已經基本上統(tǒng)治了服務器和桌面工作站市場。同一時期,基于消息傳遞機制的并行計算機也開始不斷涌現。80 年代中期,加州理工成功地將64 個i8086/i8087 處理器通過超立方體互連結構連結起來。此后,便先后出現了Intel iPSC 系列、INMOS Transputer 系列,Intel Paragon 以及IBM SP 的前身Vulcan 等基于消息傳遞機制的并行計算機。
80 年代末到90 年代初,共享存儲器方式的大規(guī)模并行計算機又獲得了新的發(fā)展。IBM將大量早期RISC 微處理器通過蝶形互連網絡連結起來。人們開始考慮如何才能在實現共享存儲器緩存一致的同時,使系統(tǒng)具有一定的可擴展性(Scalability)。90 年代初期,斯坦福大學提出了DASH 計劃,它通過維護一個保存有每一緩存塊位置信息的目錄結構來實現分布式共享存儲器的緩存一致性。后來,IEEE 在此基礎上提出了緩存一致性協(xié)議的標準。90 年代以來,主要的幾種體系結構開始走向融合。屬于數據并行類型的CM-5 除大量采用商品化的微處理器以外,也允許用戶層的程序傳遞一些簡單的消息;CRAY T3D是一臺NUMA 結構的共享存儲型并行計算機,但是它也提供了全局同步機制、消息隊列機制,并采取了一些減少消息傳遞延遲的技術。隨著商品化微處理器、網絡設備的發(fā)展,以及MPI/PVM 等并行編程標準的發(fā)布,機群架構的并行計算機出現。IBM SP2 系列機群系統(tǒng)就是其中的典型代表。在這些系統(tǒng)中,各個節(jié)點采用的都是標準的商品化計算機,它們之間通過高速網絡連接起來。
越來越多的并行計算機系統(tǒng)采用商品化的微處理器加上商品化的互連網絡構造,這種分布存儲的并行計算機系統(tǒng)稱為機群。國內幾乎所有的高性能計算機廠商都生產這種具有極高性能價格比的高性能計算機,并行計算機就進入了一個新的時代,并行計算的應用達到了前所未有的廣度和深度。并行計算機隨著微處理芯片的發(fā)展,已經進入了一個新時代。并行計算機的性能已經突破20PFLOPS,正在向百億億次發(fā)展。我國并行計算機的研制已經走在世界前列。2003年由聯(lián)想公司生產的深騰6800 在2003 年11 月世界TOP500 排名中位列第14 名,2004 年曙光公司生產的曙光4000A 在2004 年6 月的世界TOP500 排名中位列第10 名,這是我國公開發(fā)布的高性能計算機在世界TOP500 中首次進入前十名,這標志著我國在并行計算機系統(tǒng)的研制和生產中已經趕上了國際先進水平,為提高我國的科學研究水平奠定了物質基礎。2013年國際超級計算機大會最新發(fā)布的世界超級計算機500強排名中,國防科技大學研制的天河二號超級計算機系統(tǒng),以峰值計算速度每秒5.49億億次、持續(xù)計算速度每秒3.39億億次雙精度浮點運算的優(yōu)異性能位居榜首。從TOP500 的前10 名來看,美國仍然是超級計算機的最大擁有者。按照世界TOP500 的統(tǒng)計數據來分析,美國在計算能力上占有近全世界的一半,在TOP500 中的所有計算機中擁有的數量超過50%