如何管理模擬世界的大規(guī)模測量數(shù)據(jù)
收集更多的數(shù)據(jù)已經(jīng)不能讓您脫引而出,更重要的是誰能夠迅速分清所收集到的數(shù)據(jù)。 在過去,硬件采樣率由于受模數(shù)轉(zhuǎn)換發(fā)生速度的限制,在物理上局限了采集數(shù)據(jù)的數(shù)量。 而如今,硬件已不再是采集應(yīng)用的限制因素。 如何管理采集到的數(shù)據(jù)才是未來的挑戰(zhàn)。
計算技術(shù)的不斷進步,包括了微處理器速度和硬盤驅(qū)動器存儲容量的提高,加之軟硬件成本的降低,引發(fā)了驚人速度的數(shù)據(jù)爆炸。 特別是在測量應(yīng)用中,工程師和科學(xué)家們每分每秒都能收集大量的數(shù)據(jù)。 歐洲核子研究中心的大型強子對撞機的運行實驗每秒鐘能產(chǎn)生40 TB的數(shù)據(jù)。 而波音噴氣發(fā)動機運行時,每隔30分鐘系就統(tǒng)會創(chuàng)建10 TB的操作信息(Gantz,2011)。 這就是“大規(guī)模數(shù)據(jù)”。
大規(guī)模數(shù)據(jù)現(xiàn)象為數(shù)據(jù)分析、搜索、集成、報告和系統(tǒng)維護帶來了新的挑戰(zhàn),只有滿足這些挑戰(zhàn)才能跟上數(shù)據(jù)飛速增長的步伐。 數(shù)據(jù)的來源是多方面的,而工程師和科學(xué)家認為最為有趣的是來自真實世界的數(shù)據(jù), 即捕獲和數(shù)字化的測量數(shù)據(jù)。 因此,它也被稱作“大規(guī)模測量數(shù)據(jù)”,可以通過測量振動、射頻信號、溫度、壓力、聲音、圖象、光、磁、電壓等現(xiàn)象獲得這些數(shù)據(jù)。 大規(guī)模測量數(shù)據(jù)TM在廣泛的數(shù)據(jù)采集領(lǐng)域激起了三大技術(shù)趨勢。
上下文數(shù)據(jù)挖掘
真實現(xiàn)象的物理特性能夠防止在采集速率不夠高的時候采集數(shù)據(jù),讓小規(guī)模數(shù)據(jù)集變得不再可行。 即使測量現(xiàn)象的特性允許更多的信息采集,小規(guī)模數(shù)據(jù)集往往一開始就限制了結(jié)論和預(yù)測的準(zhǔn)確性。
以挖掘一個金礦為例,其中只有20%的黃金是可見的。 其余的80%是存在于您看不見的泥土中。 礦業(yè)的目的就是充分挖掘礦井的全部價值。 這就引出了術(shù)語“數(shù)字塵土”,意思為數(shù)字化數(shù)據(jù)帶有隱藏價值。 因此,需要通過數(shù)據(jù)分析和數(shù)據(jù)挖掘來發(fā)掘前所未有的見解。
數(shù)據(jù)挖掘的過程就是使用與數(shù)據(jù)一同保存的上下文信息,搜索并削減大規(guī)模數(shù)據(jù)集,使其變得更容易管理及利用。 將原始數(shù)據(jù)與背景,或“元數(shù)據(jù)”共同保存下來,數(shù)據(jù)采集、定位、過后的處理和理解就會變得更為方便。 例如,查看一系列看似隨機的整數(shù): 5126838937。乍看之下,該原始信息的含義不得而知。 然而,當(dāng)它變?yōu)?512)683-8937時,我們就能知道清楚地識別出它是一個電話號碼。
測量數(shù)據(jù)上下文的描述性信息提供了類似的益處,它能夠詳細描述指定測量通道的傳感器類型、制造商與校準(zhǔn)日期,或是整體待測組件的修訂記錄、設(shè)計師或型號。 事實上,原始數(shù)據(jù)存儲的上下文越多,在整個設(shè)計生命周期中數(shù)據(jù)追蹤、搜索或定位,以及通過專用數(shù)據(jù)后處理軟件在今后與其他測量關(guān)聯(lián)才會更為有效。
智能DAQ節(jié)點
數(shù)據(jù)采集應(yīng)用的形式多種多樣。 但由于涉及多種行業(yè)和應(yīng)用,只有在需要時才會采集數(shù)據(jù)。 工程師和科學(xué)家們將重要資源投資在構(gòu)建高級采集系統(tǒng)上,但這些系統(tǒng)生成的原始數(shù)據(jù)也不會因此就無用了。 相反,采集原始數(shù)據(jù),將它輸入分析或處理算法,構(gòu)建設(shè)計者所需的實際結(jié)果系統(tǒng)。
例如,汽車碰撞測試在毫秒之間就能收集千兆字節(jié)有關(guān)速度、溫度、沖擊力和加速度的數(shù)據(jù)。 可以從這些原始數(shù)據(jù)計算得出的一個關(guān)鍵性相關(guān)結(jié)論為顱腦損傷標(biāo)準(zhǔn)(HIC),它是單標(biāo)量的計算值,能夠表示碰撞假人在碰撞中頭部受傷的可能性。
此外,一些應(yīng)用程序—尤其是有關(guān)環(huán)境、結(jié)構(gòu)、機器狀態(tài)監(jiān)測空間—能夠保持周期性的慢采集速率,而當(dāng)檢測到明顯的條件時又能大幅提高。 該技術(shù)的采集速度低,且最大限度地減少了記錄的數(shù)據(jù),同時采樣率要足夠滿足應(yīng)用中高速波形的需求。 想要在滿足特定標(biāo)準(zhǔn)時,采用某項技術(shù),如將原始數(shù)據(jù)轉(zhuǎn)化為結(jié)果,或調(diào)整測量細節(jié),您必須使您的數(shù)據(jù)采集系統(tǒng)智能化。
雖然將測試數(shù)據(jù)通過標(biāo)準(zhǔn)總線,如USB和以太網(wǎng),傳輸?shù)絇C主機上(“智能”)非常常見,但是高通道數(shù)測量的采樣速率非???,很可能超過通信總線的負荷。另一種方法是在本地存儲數(shù)據(jù),在測試運行后傳輸文件進行后期處理,所花費的時間會增加,但能獲得有價值的結(jié)果。 為了應(yīng)對這些挑戰(zhàn),最新的測量系統(tǒng)集成了來自ARM、Intel和Xilinx的領(lǐng)先技術(shù),可提供更高的性能和處理能力,以及現(xiàn)成的存儲組件,以提供高通量數(shù)據(jù)傳輸。
借助板載處理器,處理元件更接近傳感器和測量,測量系統(tǒng)的數(shù)據(jù)就變得更為分散。 現(xiàn)代數(shù)據(jù)采集硬件包含了高性能的多核處理器,可以根據(jù)測量運行采集軟件和處理密集型分析算法。 這些智能測量系統(tǒng)能夠更快地分析并得出結(jié)論,無需花費時間再等待大量的傳輸數(shù)據(jù),也無需立即記錄數(shù)據(jù),優(yōu)化了系統(tǒng),從而更有效地利用磁盤空間。
云存儲和計算的崛起
DAQ硬件和板載智能化的統(tǒng)一可創(chuàng)建出進一步嵌入式或遠程系統(tǒng)。 在許多行業(yè),它解決了眾多全新應(yīng)用的難題。 真實世界正變得智能化,人類現(xiàn)在也能夠收集幾乎所有周圍環(huán)境的數(shù)據(jù)集,物聯(lián)網(wǎng)因而出現(xiàn)在了我們眼前。 它能夠處理并分析真實世界新數(shù)據(jù)集,將對眾多行業(yè)領(lǐng)域產(chǎn)生深遠的影響,醫(yī)療、能源、交通、健身器材、樓宇自動化、保險,它可謂無處不在。
在大部分的行業(yè)中,內(nèi)容自身 (所采集的數(shù)據(jù))并非問題的根本。 聰明的人們收集了大量有用的數(shù)據(jù)。 至目前為止,主要的問題還是出在IT上面。 物聯(lián)網(wǎng)通過分布在世界各地的遠程現(xiàn)場設(shè)備產(chǎn)生大量數(shù)據(jù),有些數(shù)據(jù)還可能來自最偏遠、荒涼的地區(qū)。
這些分布式采集和分析節(jié)點(DAAN)嵌入在其他終端產(chǎn)品中,軟件驅(qū)動程序和圖像并行連接至多個計算機網(wǎng)絡(luò),形成了計算機系統(tǒng)。 他們形成了最為復(fù)雜的分布式系統(tǒng),生成了史上最大的數(shù)據(jù)集。 這些系統(tǒng)需要基于遠程網(wǎng)絡(luò)的系統(tǒng)管理工具來自動配置、維護及升級DAANs,并需要一種高效、低成本的方式來處理所有數(shù)據(jù)。
問題的復(fù)雜在于,如果您減少數(shù)據(jù)采集傳統(tǒng)的IT拓撲結(jié)構(gòu),簡化形式,就會發(fā)現(xiàn)他們實際上運行在兩個并行的分布式系統(tǒng)網(wǎng)絡(luò)上: “嵌入式網(wǎng)絡(luò)”連接到所有采集數(shù)據(jù)的現(xiàn)場設(shè)備(DAAN), “傳統(tǒng)IT網(wǎng)絡(luò)”,進行最有用的數(shù)據(jù)分析,并傳送給用戶。
而往往,這兩個并行的組織網(wǎng)絡(luò)內(nèi)存在巨大的差異,它們不能互相操作。 這意味著,數(shù)據(jù)集的效果發(fā)揮至極致。 石油和天然氣公司收集地下生成以及通過阿拉斯加管道石油量的實時數(shù)據(jù),將這些數(shù)據(jù)交給會計部門、采購部門、物流部門或財政部門——他們都位于休斯頓——這一切在數(shù)分鐘或數(shù)小時內(nèi)就能完成,省去了成天甚至成月的時間。
組織內(nèi)的并行網(wǎng)絡(luò)和其中大量的投資大大抑制了物聯(lián)網(wǎng)的發(fā)展。 而如今,通過云存儲、云計算,以及基于云的“海量數(shù)據(jù)”工具,這些難題都能夠得到解決。 使用云存儲和云計算資源創(chuàng)建單個匯聚點非常容易,它能夠匯集來自嵌入式設(shè)備(例如DAAN)的大量數(shù)據(jù),且組織內(nèi)的任何一組都能訪問這些數(shù)據(jù)。 這就解決了兩個并行嵌入式與IT網(wǎng)絡(luò)不能相互操作的問題。
用戶可以使用云中無限的存儲和計算資源,并根據(jù)使用量計費,這為他們提供了管理分布式系統(tǒng)以及處理大型測量數(shù)據(jù)集的解決方案。 云服務(wù)供應(yīng)商所提供的海量數(shù)據(jù)工具套件,可以幫助用戶輕松的獲取并處理這些龐大的測量數(shù)據(jù)集。
總的說來,云計算技術(shù)為分布式系統(tǒng)管理和數(shù)據(jù)訪問帶來了三大好處: 數(shù)據(jù)的匯總、訪問數(shù)據(jù),以及卸載計算繁重的任務(wù)。