可視化技術(shù)
一.引言
現(xiàn)代的數(shù)據(jù)可視化(Data Visualization)技術(shù)指的是運用計算機圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)換為圖形或圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術(shù)。它涉及到計算機圖形學(xué)、圖像處理、計算機輔助設(shè)計、計算機視覺及人機交互技術(shù)等多個領(lǐng)域。數(shù)據(jù)可視化概念首先來自科學(xué)計算可視化(Visualization in Scientific Computing),科學(xué)家們不僅需要通過圖形圖像來分析由計算機算出的數(shù)據(jù),而且需要了解在計算過程中數(shù)據(jù)的變化。隨著計算機技術(shù)的發(fā)展,數(shù)據(jù)可視化概念已大大擴展,它不僅包括科學(xué)計算數(shù)據(jù)的可視化,而且包括工程數(shù)據(jù)和測量數(shù)據(jù)的可視化。學(xué)術(shù)界常把這種空間數(shù)據(jù)的可視化稱為體視化(Volum Visualization)技術(shù)。近年來,隨著網(wǎng)絡(luò)技術(shù)和電子商務(wù)的發(fā)展,提出了信息可視化(Information Visualization)的要求。我們可以通過數(shù)據(jù)可視化技術(shù),發(fā)現(xiàn)大量金融、通信和商業(yè)數(shù)據(jù)中隱含的規(guī)律,從而為決策提供依據(jù)。這已成為數(shù)據(jù)可視化技術(shù)中新的熱點。
為適應(yīng)硬件平臺、操作系統(tǒng)、網(wǎng)絡(luò)和通信方面的飛速發(fā)展,可視化的軟件產(chǎn)品在近幾年中發(fā)展很快,其中以AVS/Express開發(fā)版、IDL(包括VIP、ION)和PV-WAVE等為代表。AVS/Express開發(fā)版,可以提供多平臺的交互式多維可視化軟件開發(fā)和集成環(huán)境。
二.發(fā)展數(shù)據(jù)可視化的重要意義
怎樣來分析大量、復(fù)雜和多維的數(shù)據(jù)呢?答案是要提供象人眼一樣的直覺的、交互的和反應(yīng)靈敏的可視化環(huán)境。因此,數(shù)據(jù)可視化技術(shù)的主要特點是:
(1)交互性。用戶可以方便地以交互的方式管理和開發(fā)數(shù)據(jù)。
(2)多維性??梢钥吹奖硎緦ο蠡蚴录臄?shù)據(jù)的多個屬性或變量,而數(shù)據(jù)可以按其每一維的值,將其分類、排序、組合和顯示。
(3)可視性。數(shù)據(jù)可以用圖象、曲線、二維圖形、三維體和動畫來顯示,并可對其模式和相互關(guān)系進行可視化分析。 歷史證明,人類的視覺在人類的科學(xué)發(fā)現(xiàn)中發(fā)揮過杰出的作用。通常在可視化方面,關(guān)鍵技術(shù)的出現(xiàn),就是重大科學(xué)發(fā)現(xiàn)的前奏。望遠鏡和顯微鏡在天文學(xué)和生物發(fā)展中的作用,就是明證。這些工具,放大和擴展了人類眼晴的功能。今天,這個道理仍然成立。人類的可視化功能,允許人類對大量抽象的數(shù)據(jù)進行分析。新的數(shù)據(jù)開發(fā)工具,可以大大拓展我們的視力。人的創(chuàng)造性不僅取決于人的邏輯思維,而且取決于人的形象思維。海量的數(shù)據(jù)只有通過可視化變成形象,才能激發(fā)人的形象思維。從表面上看來是雜亂無章的海量數(shù)據(jù)中,找出其中隱藏的規(guī)律,為科學(xué)發(fā)現(xiàn)、工程開發(fā)、醫(yī)療診斷和業(yè)務(wù)決策等提供依據(jù)。這里我們還必須區(qū)分數(shù)據(jù)、信息和知識的概念。數(shù)據(jù)是符號的集合。信息是有用的數(shù)據(jù)。信息不等同于知識。信息不能像知識那樣去反映數(shù)據(jù)之間的內(nèi)在聯(lián)系。對于知識,有人主張可分成兩類,一類是無法用語言和文字來描述的,稱之謂隱知識(Tacit Knowledge);另一類是可以用語言和文字來描述的,稱之謂顯知識(Explicit Knowledge)。當(dāng)前,信息就是這種顯知識。展望未來,在腦科學(xué)取得突破的基礎(chǔ)上,將研制成功類人腦的計算機-生物計算機,從而開創(chuàng)人工智能的黃金時代。但即使到那時,信息也不能完全表達人類全部的隱知識。只有將數(shù)據(jù)和信息用圖形和圖像表示出來,才有可能為獲得十分寶貴的隱知識創(chuàng)造條件??傊?,數(shù)據(jù)可視化可以大大加快數(shù)據(jù)的處理速度,使時刻都在產(chǎn)生的海量數(shù)據(jù)得到有效利用;可以在人與數(shù)據(jù)、人與人之間實現(xiàn)圖像通信,從而使人們能夠觀察到數(shù)據(jù)中隱含的現(xiàn)象,為發(fā)現(xiàn)和理解科學(xué)規(guī)律提供有力工具;可以實現(xiàn)對計算和編程過程的引導(dǎo)和控制,通過交互手段改變過程所依據(jù)的條件,并觀察其影響。
計算機用于科學(xué)計算和數(shù)據(jù)處理已有近50年的歷史。但是,長期以來,由于計算機技術(shù)水平的限制,數(shù)據(jù)只能以批處理而不能進行交互處理。不能對計算過程進行干預(yù)和引導(dǎo),只能被動地等待計算結(jié)果的輸出。而大量的輸出數(shù)據(jù)也只能采用人工方式處理,或者使用繪圖儀輸出二維圖形。這樣做,不僅不能及時地得到有關(guān)數(shù)據(jù)的直觀、形象的整體概念,而且還有可能丟失大量信息。近年來,來自超級計算機、衛(wèi)星、先進醫(yī)學(xué)成象設(shè)備以及地質(zhì)勘探的數(shù)據(jù)與日俱增,使數(shù)據(jù)可視化日益成為迫切需要解決的問題。另一方面,近年來由于計算機的計算速度迅速提高,內(nèi)存容量和磁盤空間不斷擴大,網(wǎng)絡(luò)功能日益增強,并可用硬件來實現(xiàn)許多重要的圖形生成及圖像處理算法,這才有可能運用數(shù)據(jù)可視化技術(shù),直觀、形象地顯示海量的數(shù)據(jù)和信息,并進行交互處理。
下面我們舉例來說明發(fā)展可視技術(shù)的重大意義。長期以來人類就有認識自身內(nèi)部結(jié)構(gòu)的愿望。直到70年代計算機斷層掃描(CT)和核磁共振圖像(MRI)技術(shù)和可視化技術(shù)的出現(xiàn),才使獲取人體內(nèi)部數(shù)據(jù)的愿望成為現(xiàn)實。為了實現(xiàn)這一目的,美國國家醫(yī)學(xué)圖書館(NLM)于1989年開始實施可視化人體計劃(VHP)。委托科羅拉多大學(xué)醫(yī)學(xué)院建立起一男一女的全部解剖結(jié)構(gòu)數(shù)據(jù)庫。他們將一具男性和一具女性尸體從頭到腳做 CT掃描和核磁共振掃描。男的間距1毫米,共1878 個斷面;女的間距0.33毫米,共5189個斷面。然后將尸體填充藍色乳膠并裹以明膠后冰凍至攝氏零下80 度,再以同樣的間距對尸體作組織切片的數(shù)碼相機攝影。分辨率為2048 ×1216。所得數(shù)據(jù)共56GB(男13GB,女43GB)。全球用戶在與美國國家醫(yī)學(xué)圖書館簽訂使用協(xié)議并付少量費用后,即可獲得這一龐大的數(shù)據(jù),用于教學(xué)和科學(xué)研究。VHP數(shù)據(jù)集的出現(xiàn),標(biāo)志計算機三維重構(gòu)圖像和虛擬現(xiàn)實技術(shù)進入了醫(yī)學(xué)領(lǐng)域,從而大大促進了醫(yī)學(xué)的發(fā)展和普及。
三.數(shù)據(jù)可視化的應(yīng)用
數(shù)據(jù)可視化的應(yīng)用十分廣泛,幾乎可以應(yīng)用于自然科學(xué)、工程技術(shù)、金融、通信和商業(yè)等各種領(lǐng)域。下面舉例說明幾個數(shù)據(jù)可視化成功應(yīng)用的領(lǐng)域。
1.醫(yī)學(xué)
醫(yī)學(xué)數(shù)據(jù)的可視化,已成為數(shù)據(jù)可視化領(lǐng)域中最為活躍的研究領(lǐng)域之一。由于近代非侵入診斷技術(shù)如CT、MRI和正電子放射斷層掃描(PET)的發(fā)展,醫(yī)生已經(jīng)可以較易獲得病人有關(guān)部位的一組二維斷層圖象。CT打破傳統(tǒng)的膠片感光成像模式,通過計算機重構(gòu)人體器官或組織的圖像,使醫(yī)學(xué)圖像從二維走向三維,使人們從人體外部可以看到內(nèi)部。PET把核技術(shù)與計算機技術(shù)結(jié)合起來。經(jīng)核素標(biāo)記的示蹤劑注入人體后,核素衰變過程中產(chǎn)生的正電子湮滅通過電子檢測和計算機重構(gòu)成像,使我們可以得到人體代謝或功能圖像。在此基礎(chǔ)上,利用可視化軟件,對上述多種模態(tài)的圖像進行圖像融合,可以準確地確定病變體的空間位置、大小、幾何形狀以及它與周圍生物組織之間的空間關(guān)系,從而及時高效地診斷疾病。美國加洲的ADAC實驗室,約翰.霍普金斯大學(xué)、焦點圖形公司、集成醫(yī)學(xué)圖象處理系統(tǒng)公司以及德國柏林大學(xué)等、都采用可視化軟件系統(tǒng),將獲得的二維斷層圖象,重構(gòu)有關(guān)器官和組織的三維圖象。他們開發(fā)出的軟件已在許多醫(yī)院得到應(yīng)用。另外,美國華盛頓大學(xué)利用可視化軟件系統(tǒng)和心臟超聲診斷技術(shù),可以獲得心臟的三維圖象,并用于監(jiān)控心臟的形狀、大小和運動,為綜合診斷提供依據(jù)。電子束CT(EBCT)由電子束掃描替代了X線管與檢測器的機械掃描,因而掃描速度提高近百倍,檢查運動的器官(如心臟大血管)能得到清晰的圖像,實現(xiàn)了電影CT,是CT技術(shù)的一次革命。中國協(xié)和醫(yī)科大學(xué)阜外心血管病醫(yī)院已將EBCT三維圖像重建用于主動脈病變的臨床診斷和冠狀動脈搭橋術(shù)(CABG)后的血管顯示。
圖1 美國ADAC實驗室給出的多種模態(tài)的融合圖象
由于EBCT血管造影圖像時間分辨率高,消除了呼吸及運動偽影,可以明確診斷各種主動脈病變和顯示冠狀動脈搭橋血管解剖結(jié)構(gòu)。三維重建圖像利于整體直觀地顯示病變,幫助明確診斷并指導(dǎo)手術(shù)。從而在主動脈病變的診斷和冠狀動脈搭橋術(shù)后的血管顯示方面,可望取代有創(chuàng)的常規(guī)血管造影
在可視化技術(shù)的基礎(chǔ)上可以進一步實現(xiàn)放射治療、矯形手術(shù)等的計算機模擬及手術(shù)規(guī)劃。例如,在做腦部腫瘤放射治療時,需要在顱骨上穿孔,然后將放射性同位素準確地安放在腦中病灶部位,既要使治療效果最好,又要保證整個手術(shù)過程及同位素射線不傷及正常組織。由于人腦內(nèi)部結(jié)構(gòu)十分復(fù)雜,而且在不開顱的情況下,醫(yī)生無法觀察到手術(shù)實際進行情況,因而要達到上述要求是十分困難的。利用可視化技術(shù)就可以在重構(gòu)出的人腦內(nèi)部結(jié)構(gòu)三維圖像的基礎(chǔ)上,對顱骨穿孔位置、同位素置入通道、安放位置及等劑量線等進行計算機模擬,并選擇最佳方案。同時還可以在屏幕上監(jiān)視手術(shù)進行的情況,從而大大提高手術(shù)的成功率。又如,有不少兒童的髖關(guān)節(jié)發(fā)育不正常,當(dāng)作矯形手術(shù)時,需要對髖關(guān)節(jié)進行切割、移位、固定等操作。利用可視化技術(shù)可以首先在計算機上構(gòu)造出髖關(guān)節(jié)的三維圖像,然后在計算機上對切割部位、切割形狀、移位多少及固定方式等的多種方案進行模擬,從而大大提高矯形手術(shù)的質(zhì)量。
2.油氣勘探
圖2 用PGS Tigress有限公司軟件顯示的油藏三維圖
多年前,人們就已經(jīng)找到了許多大型油氣田。目前石油工業(yè)面臨的一個嚴峻問題是:如何尋找規(guī)模小而埋藏深的油氣田。除了尋找新油田之外,新技術(shù)的出現(xiàn)還允許我們通過改善分析和回收方法,使現(xiàn)存油田處于最佳狀態(tài),并延長很多油田的產(chǎn)油壽命??茖W(xué)家和工程技術(shù)人員必須先對大量的地震勘探數(shù)據(jù)進行精確的解釋,然后才能確定油田是否存在,并確定對地下資源的開采管理方案。油氣勘探的主要方式,是通過天然地震波或人工爆炸產(chǎn)生的聲波在地質(zhì)構(gòu)造中的傳播,來重構(gòu)大范圍內(nèi)的地質(zhì)構(gòu)造,并通過測井?dāng)?shù)據(jù)了解局部區(qū)域的地層結(jié)構(gòu),探明油藏氣藏位置及其分布,估計蘊藏量及其勘探價值。由于地震數(shù)據(jù)及測井?dāng)?shù)據(jù)的數(shù)據(jù)量極其龐大,而且分布不均勻,因而無法根據(jù)紙面上的數(shù)據(jù)作出分析。利用可視化技術(shù)可以從大量的地質(zhì)勘探數(shù)據(jù)或測井?dāng)?shù)據(jù)中,構(gòu)造出感興趣的等值面、等值線,并顯示其范圍及走向,并用不同顏色顯示出多種參數(shù)及其 相互關(guān)系,從而使專業(yè)人員能對原始數(shù)據(jù)作出正確解釋,得到礦藏是否存在、礦藏位置及儲量大小等重要信息。這不僅可以指導(dǎo)打井作業(yè)、減少無效井位、節(jié)約資金,而且必將大大提高尋找油藏的效率,從而具有重大的經(jīng)濟效益及社會效益。英國的PGS Tigress有限公司開發(fā)了數(shù)據(jù)的可視化軟件,已在全世界許多油田和天然氣開發(fā)中得到廣泛的應(yīng)用。利用這種軟件,可以進行地震數(shù)據(jù)處理、測井多井評估、模擬油氣的儲存和生產(chǎn)過程。不僅能確定油氣儲存的位置,而且便可以跟蹤油氣的運動,便于確定開采油氣的最優(yōu)路徑。我國大慶勘探開發(fā)研究院開發(fā)了地質(zhì)數(shù)據(jù)可視化系統(tǒng),可以全方位、方便靈活地對三維數(shù)據(jù)體中的斷層、部面、層面及其內(nèi)部所包含的數(shù)據(jù)類別、地質(zhì)屬性進行立體顯示,具有面向?qū)ο蟮拈_發(fā)環(huán)境,能滿足用戶的各種數(shù)據(jù)可視化要求。
3.氣象預(yù)報
圖3 美國國家海洋和大氣局預(yù)報的北克拉羅多的天氣數(shù)據(jù)的三維圖象
氣象預(yù)報關(guān)系到億萬人民的生活、國民經(jīng)濟的持續(xù)發(fā)展和國家安全。對災(zāi)害性天氣的預(yù)報和預(yù)防將會大大減少人民生命財產(chǎn)的損失。氣象預(yù)報的準確性依賴于對大量數(shù)據(jù)的計算和對計算結(jié)果的分析。一方面,科學(xué)計算可視化可將大量的數(shù)據(jù)轉(zhuǎn)換為圖像,在屏幕上顯示出某一時刻的等壓面、等溫面、旋渦、云層的位置及運動、暴雨區(qū)的位置及其強度、風(fēng)力的大小及方向等,使預(yù)
報人員能對未來的天氣作出準確的分析和預(yù)測。另一方面,根據(jù)全球的氣象監(jiān)測數(shù)據(jù)和計算結(jié)果,可將不同時期全球的氣溫分布、氣壓分布、雨量分布及風(fēng)力風(fēng)向等以圖像形式表示出來,從而對全球的氣象情況及其變化趨勢進行研究和預(yù)測。美國國家海洋和大氣局(NOAA)的預(yù)報系統(tǒng)實驗室開發(fā)了氣象預(yù)報辦公室(WFO-Advanced)的高級版,其關(guān)鍵部分是顯示天氣數(shù)據(jù)的三維圖象。為此,該實驗室開發(fā)了三維可視化軟件系統(tǒng)Display 3D(D3D)。利用這個系統(tǒng)可以將從氣球、地面站、雷達、飛機和衛(wèi)星等收集來的大量數(shù)據(jù)進行顯示和處理,并在此基礎(chǔ)上及時跟蹤和評估當(dāng)?shù)氐闹匾獨庀笄闆r,從而及時準確地作出天氣預(yù)報。通常情況下,氣象工作者將二維的層狀數(shù)據(jù)人為疊加來進行分析,而運用三維可視化,可讓氣象工作者從大量二維圖像計算中解脫出來,讓他們的精力集中于預(yù)報所需的實際數(shù)值。利用WFO-Advanced 和 D3D ,氣象工作者可以建立在4小時內(nèi)做出未來12-18小時的中尺度(20-200km)或區(qū)域預(yù)報模式。該軟件中的動畫模塊可以生成圖像序列、顯示出動態(tài)圖像。這一軟件的最大特點在于生成云霧十分逼真。我國軍事氣象部門最近開發(fā)的“軍用數(shù)值天氣預(yù)報系統(tǒng)”,能高速處理數(shù)千個氣象臺站氣象觀測數(shù)據(jù),自動滾動制作10天以內(nèi)逐日軍用天氣預(yù)報、軍事氣象要素預(yù)報和三維可視化信息。
4.工程
計算機輔助工程(CAE)包括計算機輔助設(shè)計(CAD)、計算機輔助制造(CAM)和計算機輔助運行等多項內(nèi)容??梢暬夹g(shù)有助于整個工程過程一體化和流線化,并能使工程的領(lǐng)導(dǎo)和技術(shù)人員看到和了解過程中參數(shù)變化對整體的動態(tài)影響,從而達到縮短研制周期、節(jié)省工程全壽命費用的目的。可視化技術(shù)可將多種來源的各種數(shù)據(jù)(包括表格數(shù)據(jù)、離散采樣數(shù)據(jù)、貼體坐標(biāo)數(shù)據(jù)、多重半結(jié)構(gòu)網(wǎng)格數(shù)據(jù)和非結(jié)構(gòu)網(wǎng)格數(shù)據(jù)等)融合成三維的圖形圖像。
在工程設(shè)計中常采用計算力學(xué)的手段。計算力學(xué)更離不開可視化技術(shù)。有限元分析(FEA)是50年代提出的適用于計算機處理的一種結(jié)構(gòu)分析的數(shù)值計算方法。有限元分析在飛機設(shè)計、水壩建造、機械產(chǎn)品設(shè)計、建筑結(jié)構(gòu)應(yīng)力分析等領(lǐng)域都得到了廣泛應(yīng)用。從數(shù)學(xué)的觀點來看,有限元分析將研究對象劃分為若干個子單元,并在此基礎(chǔ)上求出偏微分方程的近似解。在有限元分析中,應(yīng)用可視化技術(shù)可實現(xiàn)形體的網(wǎng)格劃分及有限元分析結(jié)果數(shù)據(jù)的圖形顯示,即所謂有限元分析的前后處理,并根據(jù)分析結(jié)果,實現(xiàn)網(wǎng)格劃分的優(yōu)化,使計算結(jié)果更加可靠和精確。
圖4 美國航空航天局阿姆斯研究中心的虛擬風(fēng)洞
飛機、汽車、船舶等在設(shè)計時都必須考慮在氣體、液體高速運動的環(huán)境中獲得優(yōu)良性能和正常工作。過去的做法是:將所設(shè)計的飛機模型放在大型風(fēng)洞或水洞里做流體動力學(xué)的物理模擬實驗,然后根據(jù)實驗結(jié)果修改設(shè)計。這種做法既耗費資金,又延長了設(shè)計周期。目前已實現(xiàn)了在計算機上進行流體動力學(xué)的模擬計算,這就是計算流體動力學(xué)(CFD)。其核心是求解表示流體流動的偏微分方程。目前,利用超級計算機可以對復(fù)雜幾何模型的Navier-Stokes方程式求解。最后可計算出流場中各種參數(shù)在每一時刻的數(shù)值,但數(shù)據(jù)量十分龐大。為了理解和分析流體流動的模擬計算結(jié)果,必須利用可視化技術(shù)在屏幕上將數(shù)據(jù)動態(tài)地顯示出來。例如,用多種不同方法表示出每一點的速度、壓力、溫度和組分等,并顯示出渦流、沖擊波、剪切層、尾流及湍流等。在流場的可視化中,既要提高顯示速度,又要逼真地顯示流場的細微結(jié)構(gòu)和各種參數(shù)的等值面。當(dāng)然,計算流體動力學(xué)和有限元分析一樣,計算的速度和準確度受網(wǎng)格劃分的影響很大,通過可視化技術(shù)可以針對不同對象,找到最適合的網(wǎng)格劃分方法。美國航空航天局阿姆斯研究中心(AMES)的航空航天數(shù)字模擬設(shè)備(NAF),不僅將可視化技術(shù)用于CFD計算,同時也用于從風(fēng)洞試驗獲得的二維圖象重構(gòu)三維流場,并進行計算結(jié)果與試驗結(jié)果的比較分析。特別是他們利用基于高度三維交互特性的虛擬現(xiàn)實技術(shù),構(gòu)筑了“虛擬風(fēng)洞”,為分析各種非定常流動中的復(fù)雜結(jié)構(gòu),提供直觀的研究環(huán)境。
四.信息可視化技術(shù)的發(fā)展
近年來,國際上提出信息了可視化問題。一般說來,科學(xué)計算可視化是指空間數(shù)據(jù)場的可視化,而信息可視化則是指非空間數(shù)據(jù)的可視化。隨著社會信息化的推進和網(wǎng)絡(luò)應(yīng)用的日益廣泛,信息源越來越龐大。除了需求對海量數(shù)據(jù)進行存儲、傳輸、檢索及分類等外,更迫切需求了解數(shù)據(jù)之間的相互關(guān)系及發(fā)展趨勢。實際上,在激增的數(shù)據(jù)背后,隱藏著許多重要的信息,人們希望能夠?qū)ζ溥M行更高層次的分析,以便更好地利用這些數(shù)據(jù)。目前的數(shù)據(jù)庫系統(tǒng)可以高效地實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。另一方面,人工智能自1956 年誕生后也取得了重大進展。目前的研究熱點是機器學(xué)習(xí)。機器學(xué)習(xí)是用計算機模擬人類學(xué)習(xí)的一門科學(xué),比較成熟的算法有神經(jīng)網(wǎng)絡(luò)、遺傳算法等。用數(shù)據(jù)庫管理系統(tǒng)來存儲數(shù)據(jù),用機器學(xué)習(xí)的方法來分析和挖掘大量數(shù)據(jù)背后的知識,這兩者的結(jié)合促成了“數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD:Knowledge Discovery in Databases)”的產(chǎn)生。實際上,KDD是一門交叉性學(xué)科,涉及到機器學(xué)習(xí)、模式識別、統(tǒng)計學(xué)、智能數(shù)據(jù)庫、知識獲取、數(shù)據(jù)可視化、高性能計算、專家系統(tǒng)等多個領(lǐng)域。KDD可以用在信息管理、過程控制、查詢優(yōu)化、科學(xué)研究、決策支持和數(shù)據(jù)自身維護等許多方面。
KDD的核心技術(shù)是數(shù)據(jù)挖掘(Data Mining)。它是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。人們把原始數(shù)據(jù)看作是形成知識的源泉,就像從礦石中采礦一樣。原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),也可以是半結(jié)構(gòu)化的,如文本、圖形、圖像數(shù)據(jù),甚至是分布在網(wǎng)絡(luò)上的不同構(gòu)型數(shù)據(jù)。數(shù)據(jù)挖掘的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。通過數(shù)據(jù)挖掘可以發(fā)現(xiàn)多種類型的知識,包括反映同類事物共同性質(zhì)的廣義型知識;反映事物各方面特征的特征型知識;反映不同事物之間屬性差別的差異型知識;反映一事物和其它事物之間依賴或關(guān)聯(lián)的關(guān)聯(lián)型知識;根據(jù)當(dāng)前歷史和當(dāng)前數(shù)據(jù)推測未來數(shù)據(jù)的預(yù)測型知識;揭示事物偏離常規(guī)出現(xiàn)異?,F(xiàn)象的偏離型知識。為了發(fā)現(xiàn)這些不同類型的知識。要采用多種發(fā)現(xiàn)知識的工具。為了使發(fā)現(xiàn)知識的過程和結(jié)果易于理解和在發(fā)現(xiàn)知識過程中進行人機交互,要發(fā)展發(fā)現(xiàn)知識的可視化方法。 為了了解數(shù)據(jù)之間的相互關(guān)系及發(fā)展趨勢,人們可以求助于可視化技術(shù)。信息可視化不僅用圖像來顯示多維的非空間數(shù)據(jù),使用戶加深對數(shù)據(jù)含義的理解,而且用形象直觀的圖像來指引檢索過程,加快檢索速度。在科學(xué)計算可視化中,顯示的對象涉及標(biāo)量、矢量及張量等不同類別的空間數(shù)據(jù),研究的重點放在如何真實、快速地顯示三維數(shù)據(jù)場。而在信息可視化中,顯示的對象主要是多維的標(biāo)量數(shù)據(jù),目前的研究重點在于,設(shè)計和選擇什么樣的顯示方式才能便于用戶了解龐大的多維數(shù)據(jù)及它們相互之間的關(guān)系,其中更多地涉及心理學(xué)、人機交互技術(shù)等問題。
圖5 意大利中央銀行對各分行業(yè)務(wù)的統(tǒng)計圖
信息可視化在商務(wù)、金融和通信等領(lǐng)域,有著十分廣闊的應(yīng)用前景。在通信領(lǐng)域,一方面,目前正在開發(fā)更為精細和高級的網(wǎng)絡(luò)模型,以輔助將來的規(guī)劃過程。另一方面,更復(fù)雜的發(fā)射和交換設(shè)備,為現(xiàn)行網(wǎng)絡(luò)的重構(gòu)提供了更大的自由度和靈活性,但造成在單個網(wǎng)絡(luò)單元上運行的的原始數(shù)據(jù)不斷增加。全部網(wǎng)絡(luò)運行的最優(yōu)化,需要有效地使用來自所有這些信號源,而且需要在諸如市場、網(wǎng)絡(luò)規(guī)劃和日常管理等傳統(tǒng)的不同領(lǐng)域之間,進行信息和思想的動態(tài)交換。覆蓋物理網(wǎng)絡(luò)的是一個包括聲音、數(shù)據(jù)和圖象服務(wù)的廣闊領(lǐng)域,其中每一項都有自己的數(shù)據(jù)和管理要求。 此外,現(xiàn)代網(wǎng)絡(luò)不受國界的限制,是一個覆蓋很多國家和載體的國際性結(jié)構(gòu),因而其潛在的數(shù)據(jù)量和復(fù)雜程度均以更大的數(shù)量級在遞增。在英國電信公司(BT)的網(wǎng)絡(luò)中,就充分應(yīng)用了信息可視化技術(shù)。這個網(wǎng)絡(luò)有六千多個切換設(shè)備和兩千五百多萬條客戶線,從而產(chǎn)生了每分鐘幾兆字節(jié)的網(wǎng)絡(luò)狀態(tài)和控制數(shù)據(jù)。在BT網(wǎng)絡(luò)中,每五分鐘大約有六萬個與數(shù)字開關(guān)相連的局域路徑的運行情況要報告給中央操作單元(Ceutral Operations Unit),中央操作單元再將這些數(shù)字用于實時網(wǎng)絡(luò)監(jiān)測和控制。通過測量大量運行參數(shù),每天要產(chǎn)生兩千兆字節(jié)以上的數(shù)據(jù)。圖形輸出描繪了選擇的運行參數(shù)的地理分布,以及你所感興趣的時間間隔中的動畫。每個區(qū)域中參數(shù)的最小值,最大值和平均值都可以用一個彩條圖表示??梢暬诜强臻g數(shù)據(jù)中,諸如在財務(wù)指標(biāo)或流通量統(tǒng)計中的應(yīng)用,引起了廣泛的興趣。很多用于工程和科學(xué)應(yīng)用中的可視化工具和技術(shù)能夠很快地轉(zhuǎn)移到財務(wù)和統(tǒng)計中來??梢暬瘧?yīng)用成功的關(guān)鍵在于它具有為用戶提供了交互式的研究數(shù)據(jù)和揭示那些用其它方法很困難揭示的趨勢、循環(huán)和模式的能力。在非空間數(shù)據(jù)范圍內(nèi)應(yīng)用的一個典型例子是網(wǎng)絡(luò)統(tǒng)計,其中包括記錄單個網(wǎng)絡(luò)單元的特性、開關(guān)、較大區(qū)域或地理分組等。另外城市景象(Cityscape)可視化也是這方面的一項潛在的有用技術(shù).。城市景象是一個擴展的3D條狀圖,其中2D域上的標(biāo)量值表示為一個均勻網(wǎng)格上的街區(qū)或大樓。可視化表示出對一年中的每個月,劃分成十個地理帶上設(shè)想的呼叫失敗率的統(tǒng)計資料。BT已將城市景象應(yīng)用用于調(diào)查按月按區(qū)的服務(wù)統(tǒng)計和傳送系統(tǒng)運行性能。這些應(yīng)用可以非常容易地用于金融信息,諸如每個區(qū)域、每個時間段的股票收益特性,或按地理和按收入水視化挖掘(VisualMine),通過顯示各個分行的貨幣流通總量、總收入和現(xiàn)金運作平統(tǒng)計的消費總量。例如意大利中央銀行就使用了意大利人工智能軟件公司開發(fā)的可總量,可以從異?,F(xiàn)象中發(fā)現(xiàn)通過銀行系統(tǒng)的非法活動。由由于信息可視化對日益顯著的“數(shù)據(jù)超載”問題,可以提供近實時的解,它將對商務(wù)、金融和通信等領(lǐng)域的信息管理,產(chǎn)生重要的影響。由此可見,數(shù)量日益增加的數(shù)據(jù)和信息是有用的,而關(guān)鍵在于盡快從中提練對我們有用的知識。
五.大力推動我國可視化技術(shù)的發(fā)展
我國科學(xué)計算可視化技術(shù)的研究開始于90年代初。由于數(shù)據(jù)可視化所處理的數(shù)據(jù)量十分龐大,生成圖像的算法又比較復(fù)雜,過去常常需要使用巨型計算機和高檔圖形工作站等。因此,數(shù)據(jù)可視化開始都在國家級研究中心、高水平的大學(xué)、大公司的研究開發(fā)中心進行研究和應(yīng)用。近年來,隨著PC功能的提高、各種圖形顯卡以及可視化軟件的發(fā)展, 可視化技術(shù)已擴展到科學(xué)研究、工程、軍事、醫(yī)學(xué)、經(jīng)濟等各個領(lǐng)域。隨著Internetr 興起,信息可視化技術(shù)方興未艾。我國在80年代就開始進行科學(xué)計算可視化技術(shù)的研究和應(yīng)用。至今,我國不論在算法方面,還是在油氣勘探、氣象、計算力學(xué)、醫(yī)學(xué)等領(lǐng)域的應(yīng)用方面,都已取得了一大批可喜的成果。但從總體上來說,與國外先進水平還有相當(dāng)?shù)牟罹?,特別是在商業(yè)軟件方面,還是空白。因此,組織力量開發(fā)可視化商業(yè)軟件,并通過市場競爭,促使其逐步成熟,已成為當(dāng)務(wù)之急。