大數(shù)據(jù)到底是什么,大數(shù)據(jù)有哪些特征?
大數(shù)據(jù)時代的到來,離不開很多契機(jī),包括但不限于互聯(lián)網(wǎng)的發(fā)展(這會導(dǎo)致數(shù)據(jù)吞吐量的急劇增長)、采集技術(shù)的發(fā)展(各種傳感器、各個環(huán)節(jié)的數(shù)據(jù)埋點)、硬件發(fā)展(存儲硬件、運算處理硬件)、數(shù)據(jù)應(yīng)用場景擴(kuò)展(數(shù)據(jù)挖掘分析技術(shù)的發(fā)展,使得越來越多的場景都可以通過數(shù)據(jù)獲取價值)等因素,而隨著大數(shù)據(jù)概念的深化,各行各業(yè)的數(shù)據(jù)量的積累,使得越來越多的人會接觸到大數(shù)據(jù),至少接觸大數(shù)據(jù)這個概念,有的甚至是在使用大數(shù)據(jù),在不知不覺中其實就與大數(shù)據(jù)接軌。
但是,在不借助大數(shù)據(jù)平臺的情況下,我們往往很難直接使用傳統(tǒng)的分析工具,比如用Excel等數(shù)據(jù)處理和分析工具來處理海量的數(shù)據(jù),極易發(fā)生卡頓以及需要較長的響應(yīng)時間,這是由于計算機(jī)本身的計算邏輯決定的,當(dāng)單臺計算機(jī)的數(shù)據(jù)吞吐量上去之后,會發(fā)現(xiàn)計算機(jī)好像停住了好久都沒反應(yīng)。當(dāng)然,性能不同的電腦,所對應(yīng)的這個處理能力上限是不相同的,但總言之,數(shù)據(jù)量的大是一種模糊的概念,并不是說一定多少數(shù)據(jù)才算大數(shù)據(jù),而數(shù)據(jù)量的大使得我們常規(guī)的數(shù)據(jù)處理分析的工具和方法難以使用的情況,正是“大數(shù)據(jù)分析”和普通的“數(shù)據(jù)分析”之間的門檻,即實現(xiàn)技術(shù)。
有些人接觸到了一些大數(shù)據(jù)的項目,覺得數(shù)據(jù)量確實大,但是還沒達(dá)到傳統(tǒng)工具處理不了的地步,也被稱為大數(shù)據(jù)分析。所以只是大家對這里的“大”的界定不相同而已。
體量(Volume)。大數(shù)據(jù)由大量數(shù)據(jù)組成,從幾個TB到幾個ZB。百度資料表明,其新首頁導(dǎo)航每天需要提供的數(shù)據(jù)超過1.5PB(1PB=1024TB),這些數(shù)據(jù)如果打印出來將超過5千億張A4紙。有資料證實,到目前為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量僅為200PB。這些數(shù)據(jù)可能會分布在許多地方,通常是在接入因特網(wǎng)的計算網(wǎng)絡(luò)中。一般來說,凡是滿足大數(shù)據(jù)的幾個V條件的數(shù)據(jù)都會因為太大而無法被單獨的計算機(jī)處理。單單這一個問題就需要一種不同的數(shù)據(jù)處理思路,這也使得并行計算技術(shù)(例如MapReduce)得以迅速崛起。
多樣(Variety)。在過去,數(shù)據(jù)或多或少是同構(gòu)的,這種特點也使得它更易于管理。這種情況并不出現(xiàn)在大數(shù)據(jù)中,由于數(shù)據(jù)的來源各異,因此形式各異。這體現(xiàn)為各種不同的數(shù)據(jù)結(jié)構(gòu)類型,半結(jié)構(gòu)化以及完全非結(jié)構(gòu)化的數(shù)據(jù)類型。在過去的幾年里,半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)成為了大數(shù)據(jù)的主體數(shù)據(jù)類型。數(shù)據(jù)類型繁多不僅是文本形式,更多的是圖片、視頻、音頻、地理位置信息等多類型的數(shù)據(jù),個性化數(shù)據(jù)占絕對多數(shù)。
準(zhǔn)確(Veracity)。只要合理利用數(shù)據(jù)并對其進(jìn)行正確、準(zhǔn)確的分析,將會帶來很高的價值回報。準(zhǔn)確是一個在討論大數(shù)據(jù)時時常被忽略的一個屬性,部分原因是這個屬性相對來說比較新,盡管它與其他的屬性同樣重要。準(zhǔn)確是一個與數(shù)據(jù)是否可靠相關(guān)的屬性,也就是那些在數(shù)據(jù)科學(xué)流程中會被用于決策的數(shù)據(jù)(而這不同于與傳統(tǒng)的數(shù)據(jù)分析流程),精確性與信噪比有關(guān)。
大數(shù)據(jù)分析及挖掘技術(shù):數(shù)據(jù)分析及挖掘技術(shù)是大數(shù)據(jù)的核心技術(shù)。主要是在現(xiàn)有的數(shù)據(jù)上進(jìn)行基于各種預(yù)測和分析的計算,從而起到預(yù)測的效果,滿足一些高別數(shù)據(jù)分析的需求。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)實際數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識的過程。
數(shù)據(jù)展現(xiàn)和應(yīng)用:大數(shù)據(jù)技術(shù)能夠?qū)㈦[藏于海量數(shù)據(jù)中的信息挖掘出來,從而是高各個領(lǐng)域的運行效率。在我國,大數(shù)據(jù)重點應(yīng)用于以下三大領(lǐng)域:商業(yè)智能、政決策和公共服務(wù)。