大數(shù)據(jù)技術需要面對的現(xiàn)實
對于很多企業(yè)來說,大數(shù)據(jù)只是一個模糊的目標,而不是現(xiàn)實。然而,這是一個目標,越來越多的企業(yè)正在推動他們的首要任務清單。正如Gartner的調(diào)查所顯示的那樣,每個人都熱衷于加入大數(shù)據(jù)的大潮,但真正理解其中原因的人卻相對較少。大數(shù)據(jù)包括結構化、半結構化和非結構化數(shù)據(jù),非結構化數(shù)據(jù)越來越成為數(shù)據(jù)的主要部分。正如Gartner的分析師Svetlana Sicular所指出的,阻礙大數(shù)據(jù)采用的迷思取決于企業(yè)采用大數(shù)據(jù)的曲線在哪里。2014年,許多愚蠢的大數(shù)據(jù)神話將被數(shù)據(jù)驅(qū)動應用程序的經(jīng)驗增長所取代。沒有人能一下子從大數(shù)據(jù)新手變成久經(jīng)世故的人。這就是為什么對大數(shù)據(jù)項目的敏捷方法如此重要的原因,正如我在這里寫的和之前在Strata會議上介紹的。失敗是必然的。關鍵是最小化失敗的成本,這就是為什么像Hadoop這樣的開源技術對大數(shù)據(jù)的成功如此關鍵。
Sicular以以下方式展示了大數(shù)據(jù)的成功之路:
她指出,在這個過程中,阻礙我們進步改變的神話。Sicular識別出的第一組大數(shù)據(jù)神話可以歸結為對大數(shù)據(jù)含義的核心誤解,以及隨之而來的對工作所需的正確技術的困惑。例如,Sicular識別出的第一個大數(shù)據(jù)神話是一個根深蒂固的信念,即大數(shù)據(jù)是一個數(shù)據(jù)量的問題。她發(fā)現(xiàn),現(xiàn)實要微妙得多:大數(shù)據(jù)是高容量、高速度和高多樣性的信息資產(chǎn),需要成本效益高、創(chuàng)新的信息處理形式,以增強洞察力和決策能力。事實上,包括來自新華帝合作伙伴的研究(如右圖所示)在內(nèi)的多項研究都表明,對于大多數(shù)大數(shù)據(jù)項目來說,數(shù)據(jù)的速度和多樣性是最重要的特征。
因此,另一個長期存在的神話——大數(shù)據(jù)就是hadoop——阻止企業(yè)探索更符合實際的大數(shù)據(jù)使用的技術,比如NoSQL技術(用于不同數(shù)據(jù)類型的實時處理)和“邏輯數(shù)據(jù)倉庫”,完成Sicular的技術棧促使企業(yè)考慮這些技術。一旦企業(yè)已經(jīng)超越了這些新手的錯誤,他們就準備好處理更高級的神話。在這個“意識到”階段,企業(yè)有更好的理解,數(shù)據(jù)很重要,如何處理它,但他們錯誤的認為可以解決他們所有的問題如果有足夠多的數(shù)據(jù),并錯誤地認為同齡人遠遠領先于他們。
因此,Sicular將大數(shù)據(jù)問題與那些“業(yè)務問題”隔離開來,這些業(yè)務問題的問題是事先不知道的,回答這些問題的數(shù)據(jù)類型可能會有所不同,而且可能需要非結構化的數(shù)據(jù)。換句話說,當你想先存儲數(shù)據(jù),然后再查詢數(shù)據(jù)時,大數(shù)據(jù)是有用的。如果您知道應該對事務性收銀機數(shù)據(jù)提出什么問題,而這些數(shù)據(jù)恰好適合關系數(shù)據(jù)庫,那么您可能就不會遇到大數(shù)據(jù)問題。如果您存儲的是相同的數(shù)據(jù),以及一系列天氣、社交和其他數(shù)據(jù),以試圖找到可能影響銷售的趨勢,那么您可能需要這樣做。
這并不是說唯一重要的數(shù)據(jù)是企業(yè)外部的非結構化數(shù)據(jù)。事實上,事實可能恰恰相反。正如“黑暗數(shù)據(jù)”所假設的那樣。對于所有研究大數(shù)據(jù)機遇的企業(yè)來說,最大的興趣在于如何利用現(xiàn)有數(shù)據(jù)倉庫中的未充分利用的數(shù)據(jù)。當被問及目前哪些數(shù)據(jù)企業(yè)在分析時,事務性數(shù)據(jù)和日志數(shù)據(jù)是最受歡迎的兩個回答。許多最有趣的數(shù)據(jù)已經(jīng)存在于大型機和企業(yè)內(nèi)的關系數(shù)據(jù)庫中,但是在過去管理不善。大數(shù)據(jù)項目通常應該從已有的數(shù)據(jù)開始,但沒有得到有效利用。
Sicular的第三階段是企業(yè)積極試驗他們的數(shù)據(jù),但仍然因為缺乏技術和不成熟的技術而感到困惑。在這個階段,企業(yè)轉向神秘的數(shù)據(jù)科學家,發(fā)現(xiàn)她很難找到,而且也不一定是這個工作的合適人選。Sicular并沒有把重點放在尋找“數(shù)據(jù)科學家”上,而是敦促企業(yè)組建一個“擁有多種技能的多學科團隊,以迎接技術挑戰(zhàn),解決采用大數(shù)據(jù)的復雜業(yè)務問題。”考慮到對數(shù)據(jù)提出正確問題的重要性,這一點至關重要。語境很重要,不同的人對如何看待自己的數(shù)據(jù)有不同的看法。大數(shù)據(jù)的后階段采用充滿了一些意想不到的現(xiàn)實——Hadoop是不像一些希望,廉價的實現(xiàn),企業(yè)往往不是利用商品硬件和購買昂貴的機器,和更多的,但也有一些不錯的驚喜,像這樣一個事實:大數(shù)據(jù)技術相對容易的程序。有趣的是,企業(yè)走得越遠,就越意識到結構化數(shù)據(jù)是多么寶貴的財富。雖然非結構化數(shù)據(jù)可能占到數(shù)據(jù)總量的80%,但目前還不到大數(shù)據(jù)價值的80%。正如Sicular指出的那樣,“結構化數(shù)據(jù)經(jīng)過了改進,其密度和質(zhì)量都比同等數(shù)量的非結構化數(shù)據(jù)高得多。”
據(jù)IDC的調(diào)查報告顯示:企業(yè)中80%的數(shù)據(jù)都是非結構化數(shù)據(jù),這些數(shù)據(jù)每年都按指數(shù)增長60%。大數(shù)據(jù)就是互聯(lián)網(wǎng)發(fā)展到現(xiàn)今階段的一種表象或特征而已,沒有必要神話它或?qū)λ3志次分?,在以云計算為代表的技術創(chuàng)新大幕的襯托下,這些原本看起來很難收集和使用的數(shù)據(jù)開始容易被利用起來了,通過各行各業(yè)的不斷創(chuàng)新,大數(shù)據(jù)會逐步為人類創(chuàng)造更多的價值。“隨著大數(shù)據(jù)技術在管理/訂購非結構化數(shù)據(jù)方面變得越來越好,這種情況可能會隨著時間的推移而改變,但這在今天已經(jīng)成為現(xiàn)實。”所有這些都提醒我們,我們所相信的大數(shù)據(jù)可能并不真實。因此,以謙遜的態(tài)度對待大數(shù)據(jù)項目是至關重要的。