淺析大數(shù)據(jù)技術(shù)及大數(shù)據(jù)分析特征!
掃描二維碼
隨時(shí)隨地手機(jī)看文章
大數(shù)據(jù)需要特殊的技術(shù),主要包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘網(wǎng)絡(luò)、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計(jì)算平臺、互聯(lián)網(wǎng)和可擴(kuò)展的存儲系統(tǒng)。大數(shù)據(jù)技術(shù)分為整體技術(shù)和關(guān)鍵技術(shù)兩個方面。
1.整體技術(shù)
整體技術(shù)主要有數(shù)據(jù)采集、數(shù)據(jù)存取、基礎(chǔ)架構(gòu)、數(shù)據(jù)處理、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、模型預(yù)測和結(jié)果呈現(xiàn)等。
2.關(guān)鍵技術(shù)
大數(shù)據(jù)處理關(guān)鍵技術(shù)一般包括:大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲及管理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)展現(xiàn)和應(yīng)用(大數(shù)據(jù)檢索、大數(shù)據(jù)可視化、大數(shù)據(jù)應(yīng)用、大數(shù)據(jù)安全等)。
大數(shù)據(jù)采集技術(shù):數(shù)據(jù)采集是通過RFID射頻技術(shù)、傳感器以及移動互聯(lián)網(wǎng)等方式獲得的各種類型的結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù)。大數(shù)據(jù)采集一般分為大數(shù)據(jù)智能感知層和基礎(chǔ)支撐層: 大數(shù)據(jù)智能感知層:主要包括數(shù)據(jù)傳感體系、網(wǎng)絡(luò)通信體系、傳感適配體系、智能識別體系及軟硬件資源接入系統(tǒng)。實(shí)現(xiàn)對結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的海量數(shù)據(jù)的智能化識別、定位、跟蹤、接入、傳輸、信號轉(zhuǎn)換、監(jiān)控、初步處理和管理等。必須著重攻克針對大數(shù)據(jù)源的智能識別、感知、適配、傳輸、接入等技術(shù)。
在實(shí)現(xiàn)技術(shù)層面確實(shí)差別會很大,但是總體的分析流程其實(shí)和傳統(tǒng)的數(shù)據(jù)分析差不多,也是有著:數(shù)據(jù)采集、預(yù)處理、數(shù)據(jù)存儲、數(shù)據(jù)分析這樣的過程。但因?yàn)榇髷?shù)據(jù)分析數(shù)據(jù)量十分龐大的特點(diǎn),導(dǎo)致這些過程在處理技術(shù)上都要依托相應(yīng)的底層框架。這也使得大數(shù)據(jù)分析具有以下特點(diǎn):
數(shù)據(jù)存儲也很關(guān)鍵:數(shù)據(jù)量的急劇增加使得對數(shù)據(jù)的存儲也有更高的要求。實(shí)際應(yīng)用中,往往處理的是海量的動態(tài)增加的數(shù)據(jù),因此對數(shù)據(jù)庫的存儲查詢也有著較高的要求,多用分布式數(shù)據(jù)庫進(jìn)行按類匯總存儲。
多為云計(jì)算、云存儲環(huán)境:大數(shù)據(jù)處理對實(shí)驗(yàn)環(huán)境有著較高的要求,通常都是在普通計(jì)算機(jī)的集群上實(shí)現(xiàn)處理操作。也可以遠(yuǎn)程使用云計(jì)算、云存儲資源,這也是我們使用很多的大數(shù)據(jù)平臺它的一個邏輯,平臺即服務(wù)。但如果我們只是自己做一下集群實(shí)驗(yàn)的話,可以用兩三臺電腦來部署;也可以在一臺電腦上分出三個有虛擬機(jī),可以把它們看成是三臺計(jì)算機(jī),只不過他們在同一臺電腦上,是人為虛擬分出來的計(jì)算機(jī),也可以通過這個虛擬機(jī)的方式來模擬多機(jī)集群計(jì)算。
小編也是在幾年前接觸過大數(shù)據(jù)技術(shù)的課程,偏實(shí)現(xiàn)層面。很復(fù)雜,且Hadoop只是這些眾多框架的一部分,還有很多的輔助實(shí)現(xiàn)其他功能的框架,是一個大的軟件生態(tài)。這些都是傳統(tǒng)數(shù)據(jù)分析轉(zhuǎn)向大數(shù)據(jù)分析要面臨的門檻,且這還只是一部分,當(dāng)然如果要涉足大數(shù)據(jù)還是得知道大數(shù)據(jù)的一些特性,包括常見的數(shù)據(jù)問題要怎么處理解決等。對零基礎(chǔ)的讀者來說,這一塊要有一個漫長的學(xué)習(xí)周期,且還要有一定的環(huán)境條件供練習(xí)。
只要合理利用數(shù)據(jù)并對其進(jìn)行正確、準(zhǔn)確的分析,將會帶來很高的價(jià)值回報(bào)。準(zhǔn)確是一個在討論大數(shù)據(jù)時(shí)時(shí)常被忽略的一個屬性,部分原因是這個屬性相對來說比較新,盡管它與其他的屬性同樣重要。準(zhǔn)確是一個與數(shù)據(jù)是否可靠相關(guān)的屬性,也就是那些在數(shù)據(jù)科學(xué)流程中會被用于決策的數(shù)據(jù)(而這不同于與傳統(tǒng)的數(shù)據(jù)分析流程),精確性與信噪比有關(guān)。
在大數(shù)據(jù)中發(fā)現(xiàn)哪些數(shù)據(jù)對商業(yè)是真正有效的,這在信息理論中是個十分重要的概念。并不是所有的數(shù)據(jù)源都具有相等的可靠性,在這個過程中大數(shù)據(jù)的精確性會趨于變化,如何增加可用數(shù)據(jù)的精確性是大數(shù)據(jù)面臨的主要挑戰(zhàn)。數(shù)據(jù)價(jià)值密度低,商業(yè)價(jià)值高,以視頻為例,在連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。