基于物聯(lián)網(wǎng)海量數(shù)據(jù)處理的數(shù)據(jù)庫技術(shù)分析與研究
掃描二維碼
隨時(shí)隨地手機(jī)看文章
引言
隨著物聯(lián)網(wǎng)技術(shù)的快速發(fā)展,在農(nóng)業(yè)、工業(yè)、交通、醫(yī)療、環(huán)保等領(lǐng)域每時(shí)每刻都在產(chǎn)生大量的數(shù)據(jù)。在各行業(yè)業(yè)務(wù)的不斷擴(kuò)大、信息化的不斷深入的背景下,數(shù)據(jù)已滲透到企業(yè)日常業(yè)務(wù)的各個(gè)應(yīng)用場(chǎng)景之中。用戶對(duì)于海量數(shù)據(jù)的處理和實(shí)施分析的及時(shí)高效性越來越重視,快速有效的海量數(shù)據(jù)處理和實(shí)時(shí)分析技術(shù)將有助于企業(yè)快速了解市場(chǎng)行情變化、迅速做出決策,從而占得發(fā)展先機(jī)。同時(shí)該需求也對(duì)數(shù)據(jù)庫技術(shù)提供更高要求。
物聯(lián)網(wǎng)中不同類型子系統(tǒng)的海量異構(gòu)數(shù)據(jù)需要統(tǒng)一的處理及存儲(chǔ),那么就要求該海量數(shù)據(jù)處理方法能融合多個(gè)不同網(wǎng)絡(luò)、多個(gè)數(shù)據(jù)源、異構(gòu)的海量數(shù)據(jù)并且能對(duì)這些數(shù)據(jù)進(jìn)行高效快速的處理,同時(shí),該海量數(shù)據(jù)處理任務(wù)需要對(duì)包括網(wǎng)絡(luò)資源、計(jì)算資源、存儲(chǔ)資源等多種資源進(jìn)行統(tǒng)一的規(guī)劃和調(diào)度,為數(shù)據(jù)處理分配合適的資源,將任務(wù)分散到多個(gè)聯(lián)網(wǎng)的節(jié)點(diǎn)上并行計(jì)算,可以有效地加快海量數(shù)據(jù)處理的速度。而傳統(tǒng)的數(shù)據(jù)處理技術(shù)和數(shù)據(jù)庫管理系統(tǒng)(DBMS)已經(jīng)無法完全適用于物聯(lián)網(wǎng)海量數(shù)據(jù)的處理與存儲(chǔ)管理。因此,本文通過對(duì)物聯(lián)網(wǎng)海量數(shù)據(jù)處理的實(shí)時(shí)數(shù)據(jù)庫技術(shù)進(jìn)行分析與研究,選擇滿足海量數(shù)據(jù)處理需求的實(shí)時(shí)數(shù)據(jù)庫技術(shù)。
1物聯(lián)網(wǎng)海量信息處理關(guān)鍵技術(shù)分析
物聯(lián)網(wǎng)中感知設(shè)備種類繁多,并且來自不同類型網(wǎng)絡(luò),需要物聯(lián)網(wǎng)的海量數(shù)據(jù)處理方法能融合多個(gè)不同類型網(wǎng)絡(luò)、多個(gè)數(shù)據(jù)源、異構(gòu)的海量數(shù)據(jù)并對(duì)這些數(shù)據(jù)進(jìn)行高效快速的處理,從中篩選獲取有價(jià)值的信息,對(duì)有價(jià)值信息進(jìn)行綜合分析,從而提供智能決策。
1.1多源數(shù)據(jù)融合扌技術(shù)
在不同物聯(lián)網(wǎng)節(jié)點(diǎn)上獲取的信息具有不同的數(shù)據(jù)類型特征,針對(duì)多源異構(gòu)的海量數(shù)據(jù)需建立統(tǒng)一的層次化表達(dá)數(shù)據(jù)結(jié)構(gòu)和本體標(biāo)注,為多源數(shù)據(jù)信息的融合提供標(biāo)準(zhǔn)的格式,結(jié)合多源異構(gòu)數(shù)據(jù)的數(shù)據(jù)聚類、時(shí)空轉(zhuǎn)換與度量等技術(shù),解決不同來源數(shù)據(jù)的一體化有效利用問題。
1.2物聯(lián)網(wǎng)海量數(shù)據(jù)存儲(chǔ)、檢索和查詢技術(shù)
物聯(lián)網(wǎng)在應(yīng)用中廣泛部署感知設(shè)備,采集生成大量實(shí)時(shí)、多源、多粒度、多緯度流數(shù)據(jù),其數(shù)據(jù)規(guī)模可達(dá)到TB甚至是PB級(jí);開展物聯(lián)網(wǎng)海量數(shù)據(jù)的存儲(chǔ)、檢索和查詢等技術(shù)研究,對(duì)集中有效地處理這些海量數(shù)據(jù),高效性管理,高實(shí)時(shí)性地統(tǒng)一定制所需數(shù)據(jù)給用戶,以達(dá)到這些技術(shù)與用戶信息系統(tǒng)間的完美結(jié)合具有重要意義。
存儲(chǔ)機(jī)制:采用就近存儲(chǔ)原則,提供一個(gè)全局摘要視圖節(jié)點(diǎn),各數(shù)據(jù)歸檔節(jié)點(diǎn)將自己的數(shù)據(jù)分布情況通知給全局摘要視圖節(jié)點(diǎn),查詢請(qǐng)求首先被發(fā)送到全局摘要視圖節(jié)點(diǎn),并能快速定位到數(shù)據(jù)所在網(wǎng)絡(luò)節(jié)點(diǎn),避免泛洪式查詢;設(shè)計(jì)存儲(chǔ)磁盤容量耗盡時(shí)的數(shù)據(jù)回收機(jī)制,根據(jù)查詢歷史統(tǒng)計(jì)結(jié)果和當(dāng)前系統(tǒng)存儲(chǔ)容量情況,為不同類型數(shù)據(jù)動(dòng)態(tài)配置數(shù)據(jù)生存周期。對(duì)超過生存周期的數(shù)據(jù)將被新增數(shù)據(jù)覆蓋。由于物聯(lián)網(wǎng)數(shù)據(jù)具有一次寫、很少修改、多次讀、不刪除的特點(diǎn),對(duì)于單個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)的數(shù)據(jù)存儲(chǔ)技術(shù),建議采用非關(guān)系型數(shù)據(jù)庫技術(shù)。
索引機(jī)制研究:物聯(lián)網(wǎng)數(shù)據(jù)包括時(shí)態(tài)流數(shù)據(jù)和空間流數(shù)據(jù)。研究根據(jù)歸檔的數(shù)據(jù)種類,自動(dòng)創(chuàng)建最優(yōu)化的索引算法。對(duì)于時(shí)態(tài)流數(shù)據(jù),主要查詢類型為間隔查詢。對(duì)于空間類型的流數(shù)據(jù)來說,可以用查詢操作方式來尋找某個(gè)區(qū)域內(nèi)所有符合條件的對(duì)象,并運(yùn)用多維索引技術(shù),建立最優(yōu)索引,使系統(tǒng)滿足效率實(shí)時(shí)處理要求。
2物聯(lián)網(wǎng)數(shù)據(jù)庫技術(shù)要求
數(shù)據(jù)大小、數(shù)值范圍、索引。物聯(lián)網(wǎng)中存在數(shù)據(jù)的大小和數(shù)值范圍是極其巨大的,物聯(lián)網(wǎng)系統(tǒng)中涉及到眾多不同類型風(fēng)格的數(shù)據(jù)對(duì)象,不能僅對(duì)數(shù)據(jù)庫編目進(jìn)行管理,所以索引對(duì)物聯(lián)網(wǎng)實(shí)時(shí)數(shù)據(jù)庫要求很高。
查詢語言。數(shù)據(jù)庫管理系統(tǒng)查詢語言以前基本上都基于結(jié)構(gòu)化數(shù)據(jù),而可擴(kuò)展標(biāo)記語言(XML)提供了一種更為松散結(jié)構(gòu)的數(shù)據(jù)表現(xiàn)方式,并且支持自定義數(shù)據(jù)描述的方式,該方式能夠整合文檔、網(wǎng)頁以及關(guān)系數(shù)據(jù)庫等數(shù)據(jù)源進(jìn)行查詢。
多相性和完整性。物聯(lián)網(wǎng)由眾多獨(dú)立的感知或網(wǎng)絡(luò)節(jié)點(diǎn)組成,每個(gè)節(jié)點(diǎn)有著不同的保存數(shù)據(jù)方式,隨著物聯(lián)網(wǎng)數(shù)據(jù)量的不斷增長(zhǎng)和不同類型系統(tǒng)的日益增多,異構(gòu)性和互操作性的問題是物聯(lián)網(wǎng)實(shí)時(shí)數(shù)據(jù)庫需要面對(duì)的重要問題。
時(shí)間序列集聚。傳統(tǒng)的查詢語言如SQL,已經(jīng)不適合進(jìn)行時(shí)間序列數(shù)據(jù)的查詢,需要將物聯(lián)網(wǎng)實(shí)時(shí)數(shù)據(jù)以時(shí)間有序的方式組織并存儲(chǔ)起來,對(duì)于提高查詢?nèi)蝿?wù)的性能及支持快速查詢響應(yīng)至關(guān)重要。針對(duì)物聯(lián)網(wǎng)實(shí)時(shí)數(shù)據(jù)的時(shí)序特征,最佳的時(shí)間采樣周期極大地依賴于數(shù)據(jù)性質(zhì)和應(yīng)用領(lǐng)域,需要物聯(lián)網(wǎng)實(shí)時(shí)數(shù)據(jù)庫能定義合適的查詢?cè)O(shè)備,提供連續(xù)數(shù)據(jù)采樣服務(wù)。
3物聯(lián)網(wǎng)實(shí)時(shí)數(shù)據(jù)庫技術(shù)分析
本文針對(duì)物聯(lián)網(wǎng)海量數(shù)據(jù)的特性和對(duì)實(shí)時(shí)數(shù)據(jù)庫技術(shù)的要求進(jìn)行分析。
3.1分布式內(nèi)存數(shù)據(jù)庫技術(shù)
分布式數(shù)據(jù)庫是傳統(tǒng)數(shù)據(jù)庫技術(shù)與網(wǎng)絡(luò)技術(shù)相結(jié)合的產(chǎn)物。一個(gè)分布式數(shù)據(jù)庫是在物理空間中分布在計(jì)算機(jī)網(wǎng)絡(luò)各個(gè)節(jié)點(diǎn)上,但在邏輯上可以屬于同一系統(tǒng)的數(shù)據(jù)集合,圖1所示是分布式數(shù)據(jù)庫的系統(tǒng)架構(gòu)。該分布式內(nèi)存數(shù)據(jù)庫技術(shù)具有局部物理空間自治與邏輯全局共享性、數(shù)據(jù)的冗余性、數(shù)據(jù)的獨(dú)立性以及系統(tǒng)的透明性等特點(diǎn)。分布式數(shù)據(jù)庫管理系統(tǒng)支持全局控制集中、全局控制分散、全局控制部分分散的控制方式;由局部場(chǎng)地?cái)?shù)據(jù)庫管理系統(tǒng)、全局?jǐn)?shù)據(jù)庫管理系統(tǒng)、全局?jǐn)?shù)據(jù)字典、通信管理組成,負(fù)責(zé)建立和管理局部數(shù)據(jù)庫,實(shí)現(xiàn)場(chǎng)地自治能力,執(zhí)行局部應(yīng)用等功能以及提供分布透明性,協(xié)調(diào)全局事物的執(zhí)行并協(xié)調(diào)各局部數(shù)據(jù)庫管理系統(tǒng),保證數(shù)據(jù)庫的全局一致性,實(shí)現(xiàn)更新同步等功能。數(shù)據(jù)庫技術(shù)與人工智能技術(shù)、網(wǎng)絡(luò)通信技術(shù)、并行計(jì)算技術(shù)等互相滲透,互相結(jié)合,成為當(dāng)前數(shù)據(jù)庫技術(shù)發(fā)展的主要特征。
在這個(gè)系統(tǒng)中,要滿足以下要求:
各網(wǎng)絡(luò)節(jié)點(diǎn)內(nèi)存數(shù)據(jù)庫保持其自治性;
內(nèi)存數(shù)據(jù)庫集群化,通過讀寫分離,垂直和水平切分策略應(yīng)對(duì)海量數(shù)據(jù)存儲(chǔ);
多種數(shù)據(jù)切分方式,在總體垂直切分模式基礎(chǔ)上進(jìn)行水平切分,應(yīng)對(duì)不同的應(yīng)用和數(shù)據(jù)所需要做不同的處理;
各節(jié)點(diǎn)內(nèi)存數(shù)據(jù)庫間相互協(xié)調(diào),促使每個(gè)內(nèi)存數(shù)據(jù)庫都可以作為其他結(jié)點(diǎn)的服務(wù)端;
保持?jǐn)?shù)據(jù)分布的透明性,滿足數(shù)據(jù)的分布性和數(shù)據(jù)庫間的協(xié)調(diào)性特點(diǎn),結(jié)合內(nèi)存數(shù)據(jù)庫之間平衡的改進(jìn),解決物聯(lián)網(wǎng)海量數(shù)據(jù)實(shí)時(shí)處理的要求;
內(nèi)存數(shù)據(jù)庫持久化,內(nèi)存數(shù)據(jù)庫中的數(shù)據(jù)變化需要復(fù)制到與磁盤數(shù)據(jù)庫上,通過兩級(jí)數(shù)據(jù)庫及異步寫來完成持久化。
3.2基于云技術(shù)的分布式實(shí)時(shí)數(shù)據(jù)庫技術(shù)(DRTDBS)
“基于云技術(shù)的分布式實(shí)時(shí)數(shù)據(jù)庫”架構(gòu)如圖2所示,將實(shí)時(shí)數(shù)據(jù)庫技術(shù)與云計(jì)算技術(shù)進(jìn)行深度融合,通過分布在世界各地的云計(jì)算中心服務(wù)器集群實(shí)現(xiàn)具有數(shù)據(jù)庫規(guī)??蓴U(kuò)展、可伸縮,數(shù)據(jù)庫管理系統(tǒng)可靠性、可維護(hù)性高的分布式實(shí)時(shí)數(shù)據(jù)庫系統(tǒng),該系統(tǒng)包含了數(shù)據(jù)處理壓縮、數(shù)據(jù)檢索、數(shù)據(jù)存儲(chǔ)虛擬化技術(shù)、沖突處理、內(nèi)容分發(fā)網(wǎng)絡(luò)技術(shù)、事務(wù)調(diào)度、故障監(jiān)測(cè)與恢復(fù)、負(fù)載均衡等多項(xiàng)功能,在實(shí)時(shí)性、分布式、虛擬化基礎(chǔ)上實(shí)現(xiàn)海量數(shù)據(jù)存儲(chǔ)、高并發(fā)事務(wù)處理、存儲(chǔ)加密處理、分布式冗余備份、系統(tǒng)動(dòng)態(tài)擴(kuò)展等功能。
在分布式實(shí)時(shí)數(shù)據(jù)庫的構(gòu)架中,數(shù)據(jù)采集器和數(shù)據(jù)庫服務(wù)器節(jié)點(diǎn)的服務(wù)組件均通過分布式通訊服務(wù)平臺(tái)的中間件接口接入該平臺(tái),實(shí)現(xiàn)同其他服務(wù)組件的交互。各組件以服務(wù)的方式與其他功能組件進(jìn)行連接、調(diào)用,可以實(shí)現(xiàn)數(shù)據(jù)交互的自由、高效。另外通過與同樣接入該服務(wù)的其他節(jié)點(diǎn)的進(jìn)行通訊連結(jié),數(shù)據(jù)的收發(fā)也可以通過分布式通訊服務(wù)平臺(tái)的接口實(shí)現(xiàn)。分布式通訊服務(wù)平臺(tái)通過內(nèi)部的緩沖隊(duì)列和異步調(diào)用機(jī)制,使節(jié)點(diǎn)在數(shù)據(jù)發(fā)送時(shí)無需關(guān)心接收節(jié)點(diǎn)的狀態(tài),在接收數(shù)據(jù)時(shí)將通過消息回調(diào)實(shí)現(xiàn)節(jié)點(diǎn)數(shù)據(jù)獲取。分布式數(shù)據(jù)存儲(chǔ)檢索平臺(tái)如圖3所示。
多臺(tái)數(shù)據(jù)采集器和數(shù)據(jù)服務(wù)器所需的數(shù)據(jù)存儲(chǔ)、檢索服務(wù)組件通過云服務(wù)接入平臺(tái)形成統(tǒng)一的數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)檢索服務(wù)并對(duì)外提供該服務(wù),突破了以往單臺(tái)實(shí)時(shí)數(shù)據(jù)處理服務(wù)器的孤島模式,形成一個(gè)去中心化的、對(duì)等的分布式數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)檢索等功能的系統(tǒng)。數(shù)據(jù)采集器或數(shù)據(jù)服務(wù)器將采集的實(shí)時(shí)數(shù)據(jù)通過服務(wù)平臺(tái)發(fā)送到統(tǒng)一的數(shù)據(jù)存儲(chǔ)服務(wù)功能模塊進(jìn)行實(shí)時(shí)數(shù)據(jù)的存儲(chǔ)。而客戶端則通過平臺(tái)接口或是Web服務(wù)器連接入到通訊服務(wù)平臺(tái),并向統(tǒng)一的數(shù)據(jù)查詢服務(wù)申請(qǐng)和進(jìn)行數(shù)據(jù)查詢。對(duì)通過分布式通訊服務(wù)平臺(tái)向其他節(jié)點(diǎn)發(fā)送數(shù)據(jù)的服務(wù)器節(jié)點(diǎn)來說,數(shù)據(jù)發(fā)送成功就可以認(rèn)定為數(shù)據(jù)寫入成功。當(dāng)節(jié)點(diǎn)接收到數(shù)據(jù)時(shí),會(huì)通過回調(diào)接口完成數(shù)據(jù)的接收。
4結(jié)語
本文結(jié)合物聯(lián)網(wǎng)海量數(shù)據(jù)的特征,列舉了物聯(lián)網(wǎng)海量數(shù)據(jù)處理關(guān)鍵技術(shù)及物聯(lián)網(wǎng)對(duì)實(shí)時(shí)數(shù)據(jù)庫技術(shù)的要求;著重分析研究了分布式數(shù)據(jù)庫技術(shù)和基于云技術(shù)實(shí)時(shí)數(shù)據(jù)庫技術(shù)來解決物聯(lián)網(wǎng)海量數(shù)據(jù)處理的問題。第一,分布式內(nèi)存數(shù)據(jù)庫系統(tǒng)中各節(jié)點(diǎn)內(nèi)存數(shù)據(jù)庫能保持其自治性、數(shù)據(jù)的分布性和數(shù)據(jù)庫間的協(xié)調(diào)性等特點(diǎn),結(jié)合其數(shù)據(jù)分布的透明性滿足了數(shù)據(jù)庫間平衡的改進(jìn),就能很好地解決物聯(lián)網(wǎng)海量數(shù)據(jù)實(shí)時(shí)處理的要求。第二,本文通過研究高性能分布式存儲(chǔ)技術(shù)與云計(jì)算技術(shù),基于分布式應(yīng)用服務(wù),多臺(tái)數(shù)據(jù)采集器和數(shù)據(jù)服務(wù)器的數(shù)據(jù)存儲(chǔ)、檢索服務(wù)組件通過云服務(wù)接入平臺(tái)結(jié)成一個(gè)統(tǒng)一的數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)檢索服務(wù)并對(duì)外提供服務(wù),形成一個(gè)去中心化的、對(duì)等的分布式數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)檢索系統(tǒng)并支持系統(tǒng)規(guī)模動(dòng)態(tài)擴(kuò)展,適合并滿足物聯(lián)網(wǎng)海量數(shù)據(jù)處理需求。
20211122_619b98e92a454__基于物聯(lián)網(wǎng)海量數(shù)據(jù)處理的數(shù)據(jù)庫技術(shù)分析與研究