大數(shù)據(jù)并非萬能 認清10大誤區(qū)避免投資浪費
大數(shù)據(jù)在當前的科技新聞中占據(jù)了主導地位,它被吹捧為一切問題的可能的解決方案,從入侵檢測與預防欺詐,到治療癌癥和設(shè)置最優(yōu)的產(chǎn)品價格。
但我們定義大體量、多格式、高速度的大數(shù)據(jù),并不是能夠搞定每一個問題的靈丹妙藥。事實上,如果公司迷信周圍的一些大數(shù)據(jù)的神話,可能在錯誤的方向越走越遠,浪費大量的時間和金錢,影響公司的市場競爭地位,或者損害公司的聲譽。
以下是企業(yè)應當知道的圍繞大數(shù)據(jù)的十個最大的誤區(qū),了解他們將有助于有效地避免大數(shù)據(jù)的消極影響,并真正獲得大數(shù)據(jù)帶來的商業(yè)價值。
誤區(qū)1:只有數(shù)據(jù)科學家可以處理大數(shù)據(jù)
事實上,只有數(shù)據(jù)科學家是不夠的。
“數(shù)據(jù)科學家本身不能獲取大數(shù)據(jù)的信息,如果你不知道你尋求的首要問題,”Penn Medicine數(shù)據(jù)分析高級總監(jiān)Pat Farrell說?!澳阈枰煜さ男袠I(yè)、領(lǐng)域知識的人,了解存在什么樣的問題,有什么見解對這個特定的行業(yè)才是有價值的。”
例如,Penn Medicine包括衛(wèi)生系統(tǒng)和一所醫(yī)學學校。長期以來,衛(wèi)生系統(tǒng)一直在數(shù)據(jù)倉庫收集臨床數(shù)據(jù)。同時,在醫(yī)學院,新技術(shù)允許人類基因組的測序,這需要一個龐大的數(shù)據(jù)量。
“我們知道有值在哪里,并且我們終于有計算能力來訪問它,”Farrell說,結(jié)合數(shù)據(jù)分析和醫(yī)學專業(yè)知識,開辟了預測醫(yī)療保健的一個全新的領(lǐng)域。
誤區(qū)2 :數(shù)據(jù)越大,價值越大
Farrell表示,收集、貯存數(shù)據(jù)并對其進行編目需要時間和資源,不加區(qū)別地收集大量的數(shù)據(jù)可能使得更有價值的項目與這些資源無源。
Farrell建議,公司在開始收集數(shù)據(jù)之前,要對它們的具體指標或關(guān)鍵績效指標有清晰的認識。
誤區(qū)3 :大數(shù)據(jù)為大公司服務
大公司可能有更多的數(shù)據(jù)來源,但即使是小公司,也可以利用從社交媒體平臺,政府機構(gòu),以及數(shù)據(jù)供應商獲得的數(shù)據(jù)。
“不管組織規(guī)模的大小,基于數(shù)據(jù)的決策總比單純依靠直覺進行決策更加靠譜?!?戴爾軟件信息管理解決方案部門的產(chǎn)品管理高級總監(jiān) Darin Bartik說。
小型公司往往比同行的大企業(yè)更少地使用數(shù)據(jù)驅(qū)動的決策,但如果他們這樣做,他們可以更快地修正策略。
誤區(qū)4:現(xiàn)在收集,以后整理
存儲越來越便宜,但它不是免費的。總部位于舊金山、基于云計算的商業(yè)智能廠商Birst的首席執(zhí)行官Brad Peters表示,對于許多公司來說,數(shù)據(jù)增長的速度超過了存儲成本下降的速度。
一些公司認為,如果他們只是收集數(shù)據(jù),他們以后會找出這些數(shù)據(jù)的利用之道,但付出大量成本卻毫無價值。事實上,一些數(shù)據(jù)集適用收益遞減規(guī)律。例如,你進行民意測試來預測選舉結(jié)果。你需要一定數(shù)量的投票人以獲得具有代表性的樣本。但這個數(shù)量達到某個點之后,增加更多的人不會顯著影響誤差幅度。
而且這不僅涉及存儲成本,Recommind公司信息治理和大數(shù)據(jù)管理全球主管Dean Gonsowski說,該公司總部位于舊金山,專注于非結(jié)構(gòu)化數(shù)據(jù)分析。
例如,數(shù)據(jù)越多,進行排序的時間就越長?!爱敂?shù)十億條記錄入庫,搜索需要花費數(shù)小時或數(shù)周?!彼f。
誤區(qū)5 :所有數(shù)據(jù)的都平等
弗吉尼亞州在過去20年一直在收集有關(guān)學生注冊人數(shù),財政援助和獎勵程度的數(shù)據(jù)。但是,這并不意味著,20年前收集并存儲在相同的數(shù)據(jù)字段中的數(shù)據(jù)一定是相同的數(shù)據(jù)。
“我處理的最大問題是,僅僅因為它是在數(shù)據(jù)字典中,研究人員認為這是公平的比賽,”弗吉尼亞州議會高等教育政策研究和數(shù)據(jù)倉庫主管Tod Massa說?!袄?,ACT和SAT的學生的考試成績數(shù)據(jù),最初只對本州的學生收集,然后有一個缺口,然后收集本州和其他州的學生數(shù)據(jù)?!蓖瑯樱煌N族在K - 12級別和在高等教育的數(shù)據(jù)也有所不同。
事實上,任何特定的數(shù)據(jù),由不同的機構(gòu),或不同的人,或在不同的時間點報告的,都可能有所不同。
因此,分析師需要具備的不只是統(tǒng)計技能,而且還要熟悉數(shù)據(jù)的當?shù)刂R,和行業(yè)的整體發(fā)展趨勢,如SAT和ACT成績被重新標定。
“你不能編程所有這些東西放到一個數(shù)據(jù)倉庫?!盩od Massa說。
這同樣適用于外部的數(shù)據(jù)源,也就是說,很好地使用任何數(shù)據(jù),確實需要了解這些數(shù)據(jù)收集的文化和背景。
誤區(qū)6 :更具體的預測更好
人的本性認為更具體的東西更準確,如下午3:12比下午某個時間更準確。
但事實正好相反。在許多情況下,更精確的預測不太可能是準確的。例如,一個客戶買了一臺特定配置的筆記本電腦,而過去購買該配置筆記本電腦的唯一的客戶,還買了一雙粉紅色的高跟鞋。
“熱門粉紅色高跟鞋的推薦可能很具體,但可能太具體,導致很高的誤差,”位于加利福尼亞州圣莫尼卡的營銷公司Retention Science首席執(zhí)行官Jerry Jao說。
所以,通??雌饋砥恋臇|西,實際上可能無助于業(yè)務和營銷管理。
誤區(qū)7:大數(shù)據(jù)等同于Hadoop
Hadoop,針對非結(jié)構(gòu)化數(shù)據(jù)的一個流行的開源架構(gòu),最近已經(jīng)得到了很多關(guān)注。但企業(yè)還有其他的選擇。
“有整個的NoSQL運動,”SAP大數(shù)據(jù)總經(jīng)理兼高級副總裁Irfan Khan說?!坝蠱ongoDB,Cassandra等其他完整的技術(shù)。”
其中有些技術(shù)可能更適合特定的大數(shù)據(jù)項目。尤其是Hadoop的工作原理是將數(shù)據(jù)劃分成多個塊并行處理。此方法適用于許多大數(shù)據(jù)的問題,但不是所有的問題。
“雖然YARN和Hadoop 2解決了一些問題,但有時你需要處理的方式,Hadoop不是理想的選擇,”大數(shù)據(jù)咨詢公司LucidWorks首席技術(shù)官Grant Ingersoll說,“人們需要保持冷靜的頭腦,并決定什么是最適合自己的,而追隨時尚。”
誤區(qū)8:最終用戶不需要直接訪問大數(shù)據(jù)
大數(shù)據(jù)往往太過復雜,以至于需要專門的員工來處理。但是,這并不一定如此。
舉個例子來說,由重癥監(jiān)護病房中的設(shè)備所產(chǎn)生的全部數(shù)據(jù)。心臟速率,呼吸數(shù)據(jù),心電圖讀數(shù)。雖然,很多時候,醫(yī)生和護士就只能看到病人的當前讀數(shù)。
“我看不到在10分鐘前的情況,也不能繪制未來一個小時之內(nèi)的趨向線,”飛利浦醫(yī)療保健患者護理和臨床信息首席營銷官Anthony Jones表示。
但能夠看到病人的歷史數(shù)據(jù)對于一個醫(yī)生做決定非常有價值?!斑@些家伙有一個核心的數(shù)據(jù)科學團隊,他們?nèi)鄙僖粋€巨大的機會,”Jones說。
現(xiàn)在的問題是讓所有不同的設(shè)備生成的數(shù)據(jù)能夠交互,即使它們并非為此設(shè)計,并使用不同的平臺、操作系統(tǒng)和編程語言。一旦你這樣做,醫(yī)生和護士能夠在需要的時候得到一個有用的數(shù)據(jù)表單。
誤區(qū)9:大問題才用到大數(shù)據(jù)
一家大銀行的首席信息官最近發(fā)表了關(guān)于大數(shù)據(jù)的談話,并被詢問關(guān)于最終用戶自助服務的問題。
“這位首席信息官說,"我不相信",”Birst首席執(zhí)行官Peters回憶說。
這是一個共同的態(tài)度,他說,一些高管認為大數(shù)據(jù)只回答了某些類型的問題。這種態(tài)度可以這樣概括:“我們的大數(shù)據(jù)目標是解決極少的高價值的問題,通過核心的數(shù)據(jù)科學家團隊。我們不希望數(shù)據(jù)混亂,讓普通人有機會訪問這些信息,因為我們不認為他們需要它?!?/p>
Peters不同意這種觀點,但表示這常見于很多行業(yè)?!斑@是大型保險(放心保)公司里面猖獗的神話,但業(yè)務用戶都沒有足夠的智慧處理它?!?/p>
誤區(qū)10:大數(shù)據(jù)泡沫終將破滅
炒作周期可能來回反復,但技術(shù)始終堅持變革?;ヂ?lián)網(wǎng)泡沫的破滅,并非互聯(lián)網(wǎng)終結(jié)的信號。
即使在炒作平靜下來,公司仍將有大數(shù)據(jù)需要處理。事實上,由于呈指數(shù)增長,他們將有預計比以往任何時候更多的大數(shù)據(jù)處理 - IDC預計,直到2020年,累計收集的數(shù)據(jù)數(shù)量,每兩年將增加一倍。
并且它不只是公司目前收集的東西。相反,新的數(shù)據(jù)類型可能還會出現(xiàn),需要大量的存儲。
賓夕法尼亞州互動營銷公司Cadient集團首席技術(shù)官Bryan Hill表示,認為“大數(shù)據(jù)”只是一個階段,企業(yè)可能錯過機會捕捉到可能對他們的業(yè)務產(chǎn)生影響的數(shù)據(jù)元素。
“所謂"大數(shù)據(jù)"很可能會改變,就像云計算和以前的web其實沒有什么不同,”他說,“這個詞可能會改變,但大數(shù)據(jù)的精神會在里面留下來?!?/p>