收集更多的數據已經不能讓您脫引而出,更重要的是誰能夠迅速分清所收集到的數據。 在過去,硬件采樣率由于受模數轉換發(fā)生速度的限制,在物理上局限了采集數據的數量。 而如今,硬件已不再是采集應用的限制因素。 如何管理采集到的數據才是未來的挑戰(zhàn)。
計算技術的不斷進步,包括了微處理器速度和硬盤驅動器存儲容量的提高,加之軟硬件成本的降低,引發(fā)了驚人速度的數據爆炸。 特別是在測量應用中,工程師和科學家們每分每秒都能收集大量的數據。 歐洲核子研究中心的大型強子對撞機的運行實驗每秒鐘能產生40 TB的數據。 而波音噴氣發(fā)動機運行時,每隔30分鐘系就統會創(chuàng)建10 TB的操作信息(Gantz,2011)。 這就是“大規(guī)模數據”。
大規(guī)模數據現象為數據分析、搜索、集成、報告和系統維護帶來了新的挑戰(zhàn),只有滿足這些挑戰(zhàn)才能跟上數據飛速增長的步伐。 數據的來源是多方面的,而工程師和科學家認為最為有趣的是來自真實世界的數據, 即捕獲和數字化的測量數據。 因此,它也被稱作“大規(guī)模測量數據”,可以通過測量振動、射頻信號、溫度、壓力、聲音、圖象、光、磁、電壓等現象獲得這些數據。 大規(guī)模測量數據TM在廣泛的數據采集領域激起了三大技術趨勢。
上下文數據挖掘
真實現象的物理特性能夠防止在采集速率不夠高的時候采集數據,讓小規(guī)模數據集變得不再可行。 即使測量現象的特性允許更多的信息采集,小規(guī)模數據集往往一開始就限制了結論和預測的準確性。
以挖掘一個金礦為例,其中只有20%的黃金是可見的。 其余的80%是存在于您看不見的泥土中。 礦業(yè)的目的就是充分挖掘礦井的全部價值。 這就引出了術語“數字塵土”,意思為數字化數據帶有隱藏價值。 因此,需要通過數據分析和數據挖掘來發(fā)掘前所未有的見解。
數據挖掘的過程就是使用與數據一同保存的上下文信息,搜索并削減大規(guī)模數據集,使其變得更容易管理及利用。 將原始數據與背景,或“元數據”共同保存下來,數據采集、定位、過后的處理和理解就會變得更為方便。 例如,查看一系列看似隨機的整數: 5126838937。乍看之下,該原始信息的含義不得而知。 然而,當它變?yōu)?512)683-8937時,我們就能知道清楚地識別出它是一個電話號碼。
測量數據上下文的描述性信息提供了類似的益處,它能夠詳細描述指定測量通道的傳感器類型、制造商與校準日期,或是整體待測組件的修訂記錄、設計師或型號。 事實上,原始數據存儲的上下文越多,在整個設計生命周期中數據追蹤、搜索或定位,以及通過專用數據后處理軟件在今后與其他測量關聯才會更為有效。
智能DAQ節(jié)點
數據采集應用的形式多種多樣。 但由于涉及多種行業(yè)和應用,只有在需要時才會采集數據。 工程師和科學家們將重要資源投資在構建高級采集系統上,但這些系統生成的原始數據也不會因此就無用了。 相反,采集原始數據,將它輸入分析或處理算法,構建設計者所需的實際結果系統。
例如,汽車碰撞測試在毫秒之間就能收集千兆字節(jié)有關速度、溫度、沖擊力和加速度的數據。 可以從這些原始數據計算得出的一個關鍵性相關結論為顱腦損傷標準(HIC),它是單標量的計算值,能夠表示碰撞假人在碰撞中頭部受傷的可能性。
此外,一些應用程序—尤其是有關環(huán)境、結構、機器狀態(tài)監(jiān)測空間—能夠保持周期性的慢采集速率,而當檢測到明顯的條件時又能大幅提高。 該技術的采集速度低,且最大限度地減少了記錄的數據,同時采樣率要足夠滿足應用中高速波形的需求。 想要在滿足特定標準時,采用某項技術,如將原始數據轉化為結果,或調整測量細節(jié),您必須使您的數據采集系統智能化。
雖然將測試數據通過標準總線,如USB和以太網,傳輸到PC主機上(“智能”)非常常見,但是高通道數測量的采樣速率非???,很可能超過通信總線的負荷。另一種方法是在本地存儲數據,在測試運行后傳輸文件進行后期處理,所花費的時間會增加,但能獲得有價值的結果。 為了應對這些挑戰(zhàn),最新的測量系統集成了來自ARM、Intel和Xilinx的領先技術,可提供更高的性能和處理能力,以及現成的存儲組件,以提供高通量數據傳輸。
借助板載處理器,處理元件更接近傳感器和測量,測量系統的數據就變得更為分散。 現代數據采集硬件包含了高性能的多核處理器,可以根據測量運行采集軟件和處理密集型分析算法。 這些智能測量系統能夠更快地分析并得出結論,無需花費時間再等待大量的傳輸數據,也無需立即記錄數據,優(yōu)化了系統,從而更有效地利用磁盤空間。
云存儲和計算的崛起
DAQ硬件和板載智能化的統一可創(chuàng)建出進一步嵌入式或遠程系統。 在許多行業(yè),它解決了眾多全新應用的難題。 真實世界正變得智能化,人類現在也能夠收集幾乎所有周圍環(huán)境的數據集,物聯網因而出現在了我們眼前。 它能夠處理并分析真實世界新數據集,將對眾多行業(yè)領域產生深遠的影響,醫(yī)療、能源、交通、健身器材、樓宇自動化、保險,它可謂無處不在。
在大部分的行業(yè)中,內容自身 (所采集的數據)并非問題的根本。 聰明的人們收集了大量有用的數據。 至目前為止,主要的問題還是出在IT上面。 物聯網通過分布在世界各地的遠程現場設備產生大量數據,有些數據還可能來自最偏遠、荒涼的地區(qū)。
這些分布式采集和分析節(jié)點(DAAN)嵌入在其他終端產品中,軟件驅動程序和圖像并行連接至多個計算機網絡,形成了計算機系統。 他們形成了最為復雜的分布式系統,生成了史上最大的數據集。 這些系統需要基于遠程網絡的系統管理工具來自動配置、維護及升級DAANs,并需要一種高效、低成本的方式來處理所有數據。
問題的復雜在于,如果您減少數據采集傳統的IT拓撲結構,簡化形式,就會發(fā)現他們實際上運行在兩個并行的分布式系統網絡上: “嵌入式網絡”連接到所有采集數據的現場設備(DAAN), “傳統IT網絡”,進行最有用的數據分析,并傳送給用戶。
而往往,這兩個并行的組織網絡內存在巨大的差異,它們不能互相操作。 這意味著,數據集的效果發(fā)揮至極致。 石油和天然氣公司收集地下生成以及通過阿拉斯加管道石油量的實時數據,將這些數據交給會計部門、采購部門、物流部門或財政部門——他們都位于休斯頓——這一切在數分鐘或數小時內就能完成,省去了成天甚至成月的時間。
組織內的并行網絡和其中大量的投資大大抑制了物聯網的發(fā)展。 而如今,通過云存儲、云計算,以及基于云的“海量數據”工具,這些難題都能夠得到解決。 使用云存儲和云計算資源創(chuàng)建單個匯聚點非常容易,它能夠匯集來自嵌入式設備(例如DAAN)的大量數據,且組織內的任何一組都能訪問這些數據。 這就解決了兩個并行嵌入式與IT網絡不能相互操作的問題。
用戶可以使用云中無限的存儲和計算資源,并根據使用量計費,這為他們提供了管理分布式系統以及處理大型測量數據集的解決方案。 云服務供應商所提供的海量數據工具套件,可以幫助用戶輕松的獲取并處理這些龐大的測量數據集。
總的說來,云計算技術為分布式系統管理和數據訪問帶來了三大好處: 數據的匯總、訪問數據,以及卸載計算繁重的任務。