隨著互聯網的普及,人類社會進入到信息化發(fā)展的時代,數字化管理是信息時代的重要特征,因此各個行業(yè)每時每刻都會產生海量的數據。大數據是信息化社會急速發(fā)展的產物,具有數據規(guī)模大、流傳速度快、多樣化、價值密度低以及數據在線五大特點,并且大數據產業(yè)的附加值主要來源于數據加工。
隨著大數據基礎技術的逐漸完善,大數據發(fā)展進入應用階段,但是由于發(fā)展時間晚以及數字化基礎相對薄弱,我國大數據產業(yè)尚處于初級階段。面對如此龐大激增的數據量,常規(guī)軟件無法在一定時間內實現數據的捕捉、管理與處理,需要新的數據處理模式,大數據正是基于以上背景應運而生。
大數據的概念與特征
大數據簡單來講就是海量數據的集合,通過綜合數據之間的相互關聯性,大數據分析擁有更強的決策力、洞察發(fā)現力和流程優(yōu)化能力,能夠應對海量、高增長率和多樣化的信息資產。相比于傳統的數據處理模式,在容量方面,大數據達到了PB(相當于1024TB、1048576GB)以上級別,這是傳統的數據庫技術和單部計算機幾乎無法存儲處理的;在數據處理結果方面,大數據能夠通過將不同類別的數據匯總,做出更加系統合理的決策;在價值挖掘方面,大數據覆蓋面廣闊,實現了各個領域的數據一體化,因而能夠通過相互關聯的多樣化數據及時發(fā)現潛在價值信息;在流程優(yōu)化能力方面,大數據能夠打包聯合流程所需的各種數據,極大地提高了辦事效率。
大數據具有海量的數據規(guī)模、快速的數據流轉、多樣的數據類型、價值密度低和數據在線五大特征。數據量方面,大數據的采集、存儲以及計算量都十分巨大,起始計量單位至少是PB(1000個TB)、EB(100萬個TB)或ZB(10億個TB);數據流轉速度方面,相比于傳統數據處理模式,大數據在數據處理速度上有了跨越式的提升,從而能夠極大提升數據流傳速度;數據類型方面,大數據包括數字、網絡日志、視頻、音頻等結構化、半結構化以及非結構化數據,數據來源廣闊,數據類型十分豐富;價值密度方面,由于大數據采集以全面為主,不設采集門檻,因此采集的大量數據是重復的,無效的,低價值的,必須通過特定的模型及算法挖掘有價值的信息;數據在線方面,區(qū)別于磁盤中的離線數據,大數據是永遠在線的,能夠隨時調用和計算。
數據加工成為大數據產業(yè)的附加值
大數據產業(yè)的價值點體現在數據的處理加工方面。區(qū)別于其他產業(yè),大數據產業(yè)的“產品”并非以實體方式存在,而是以虛擬的數據結果呈現,更多的是為分析決策提供有力的科學依據,起到關鍵性的輔助作用。大數據產業(yè)的基本要素是海量的數據,雖然數據本身價值量比較固定,但是大數據企業(yè)可以根據數據之間的關聯性,通過特定的模型及算法,對數據進行二次“加工”,即處理分析之后,便能夠發(fā)掘隱藏在數據中的價值信息,從而實現數據的“增值”。
信息化時代,大數據挖掘信息潛在價值的能力至關重要。各個產業(yè)信息化的發(fā)展給大數據產業(yè)奠定了大量的數據基礎,使得大數據企業(yè)能夠依據海量的數據資源挖掘數據潛在價值,實現對目標信息的獲取。比如,Target超市以20多種懷孕期間孕婦可能會購買的商品為基礎,將所有用戶的購買記錄作為數據來源,通過構建模型分析購買者的行為相關性,進而準確地推斷出孕婦的具體臨盆時間,這樣Target的銷售部門就可以有針對的在每個懷孕顧客的不同階段寄送相應的產品優(yōu)惠卷。
大數據發(fā)展進入應用階段,而我國大數據產業(yè)成熟度較低
縱觀全球大數據的發(fā)展歷程,一共經歷了四個發(fā)展階段。
1990-2002年屬于大數據的萌芽階段,隨著數據庫技術以及數據挖掘技術的推廣,大量商業(yè)智能工具以及數據管理系統被開發(fā)出來,比如圖書館數據管理系統、倉庫數據管理系統、知識管理系統。
2003-2006年屬于大數據發(fā)展的突破階段,隨著手機以及個人電腦的迅速普及,大量的Web信息、圖像、音頻及視頻等非結構化數據產生,傳統的數據庫技術不便實現對這些非結構數據的管理,從而帶動了大數據技術的快速突破,標志性的事件是2005年雅虎實行的Hadoop項目,為結構化與復雜數據的快速、可靠分析奠定了基礎。
2006-2009期間屬于大數據發(fā)展的成熟階段,大數據解決方案逐漸走向成熟,形成了并行計算與分布式系統兩大核心技術,谷歌的GFS和MapReduce等大數據技術得到廣泛應用。
2009年至今屬于大數據發(fā)展的應用階段,隨著大數據基礎理論發(fā)展的不斷成熟,人們開始轉向大數據的應用研究,大數據開始向商業(yè)、教育、工業(yè)、醫(yī)療、交通等領域滲透。
據統計,我國每年的新增數據量僅為美國的7%,歐洲的12%,并且我國數據資源存在著標準化、準確性、完整性低,利用價值不高的特點。薄弱的產業(yè)數據基礎嚴重制約了我國大數據的發(fā)展,并且這一現狀短期難以改善,只能隨著產業(yè)信息化發(fā)展的不斷深入,逐步積累數據資源,強化基礎。政策推動方面,我國在2014年的《政府工作報告中》首次出現了大數據一詞,2015年的《促進大數據發(fā)展行動綱要》標志我國大數據上升到國家戰(zhàn)略層次,由此可見,我國大數據發(fā)展歷程較短,還未形成相關人才、技術積累。
由于數字化基礎相對薄弱以及發(fā)展時間較晚,我國大數據產業(yè)成熟度較低。大數據發(fā)展的基礎是海量的數字化信息資源,而與美國、歐洲等發(fā)達國家相比,我國產業(yè)信息化發(fā)展起步較晚,產業(yè)數字化基礎還比較薄弱,數據資源相對匱乏,特別是在農業(yè)領域。隨著人類步入信息化社會,數據信息變得尤為重要,大數據的發(fā)展不僅具有積極的社會意義、巨大的商業(yè)價值,于國家層面還擁有巨大的戰(zhàn)略意義,而目前我國大數據發(fā)展歷程較短,尚處于初級階段,核心技術還有待提高。