大數(shù)據(jù)的神話與現(xiàn)實(shí)
2012年初,一個(gè)男人沖進(jìn)一家位于明尼蘇達(dá)州阿波利斯市郊的塔吉特(Target)超市興師問罪:為什么超市不停地向他的還是高中生的女兒郵寄嬰兒尿布樣品和配方奶粉的折扣券?“你們是在鼓勵(lì)她懷孕嗎?”憤怒的父親質(zhì)問超市經(jīng)理。
幾天過后,超市經(jīng)理打電話向這位父親致歉,這位父親的語氣變得平和起來,他反過來道歉說,他的女兒確實(shí)懷孕了,預(yù)產(chǎn)期在8月份。
對(duì)零售商而言,一個(gè)家庭將要孕育一個(gè)新生命,往往是一對(duì)夫妻改變消費(fèi)觀念的開始,也是他們生活方式發(fā)生變化的分水嶺。塔吉特總部利用大數(shù)據(jù)進(jìn)行相關(guān)性分析,已經(jīng)為時(shí)多年。他們可以在不與準(zhǔn)媽媽們對(duì)話的前提下,預(yù)測(cè)一位女性的“懷孕進(jìn)行時(shí)”。塔吉特的數(shù)據(jù)分析團(tuán)隊(duì),在查看準(zhǔn)媽媽們的消費(fèi)記錄之后,找出了20多種關(guān)聯(lián)物,通過這些關(guān)聯(lián)物對(duì)顧客進(jìn)行“懷孕趨勢(shì)”預(yù)測(cè),并寄送相應(yīng)的優(yōu)惠券,為消費(fèi)推波助瀾。
從《紐約時(shí)報(bào)》對(duì)這件事的綜合報(bào)道,可以看到依靠大數(shù)據(jù)的新營銷模式:從娃娃抓起,讓媽媽上鉤。塔吉特這樣的大型連鎖超市早就認(rèn)識(shí)到始于嬰兒用品的消費(fèi)習(xí)慣,當(dāng)媽媽們開始熟悉一個(gè)品牌、了解一家店面、習(xí)慣一套購物方式后,媽媽和嬰兒就會(huì)成為被“友好套牢”的長期消費(fèi)者。他們的消費(fèi)價(jià)值可以用代數(shù)程序精確計(jì)算和預(yù)測(cè)出來,假如媽媽一時(shí)忘記了購買,像吃藥提示一般準(zhǔn)時(shí)的促銷就啟動(dòng)了。
塔吉特不是特例。
美國一些機(jī)構(gòu)和公司爭(zhēng)先恐后地投身于大數(shù)據(jù)分析運(yùn)動(dòng)中。毫無疑問,大數(shù)據(jù)解決了一些難題,產(chǎn)生許多有益的解決方案。例如,它可以使得Google能夠預(yù)測(cè)冬季流感的傳播路徑;可以提高人們對(duì)于曼哈頓沙井蓋爆炸的預(yù)測(cè),以避免人員傷亡;可以幫助醫(yī)院更有效地監(jiān)測(cè)到早產(chǎn)兒細(xì)微身體變化所發(fā)出的感染信號(hào),以便醫(yī)生能夠及早進(jìn)行治療;可以為UPS物流車隊(duì)制定最佳行車路徑,令司機(jī)們?cè)?011年少跑4848萬公里,節(jié)省了300萬加侖的燃料。
包括維克托.邁爾-舍恩伯格(Viktor Mayer-Sch?nberger,《大數(shù)據(jù)時(shí)代》作者)在內(nèi)的許多學(xué)者,在興奮地傳播一個(gè)又一個(gè)大數(shù)據(jù)“巫師”——那些運(yùn)用大數(shù)據(jù)成為傳奇的公司與個(gè)人,他們正在利用大數(shù)據(jù)解決令人頭疼的“古老問題”,或是發(fā)現(xiàn)一個(gè)又一個(gè)商業(yè)新大陸。類似IBM這樣的大型公司更是不遺余力地強(qiáng)調(diào):數(shù)據(jù)正在成為戰(zhàn)略資源。一時(shí)之間,擁有并利用大數(shù)據(jù)成為商業(yè)新時(shí)尚。各公司努力或者希冀成為維克托描繪的三種大數(shù)據(jù)公司之一:擁有大數(shù)據(jù)的公司、擁有大數(shù)據(jù)技術(shù)的公司、擁有大數(shù)據(jù)思維的公司。
但是,當(dāng)拉斯維加斯各大賭場(chǎng)也用大數(shù)據(jù)來挑選大客戶、鼓勵(lì)大投注、誘發(fā)大賭癮的時(shí)候,我們應(yīng)認(rèn)真考慮:要掀起大數(shù)據(jù)狂歡,還是謹(jǐn)慎地把它裝入籠子加以馴服?若無限制,在賭場(chǎng)之外的市場(chǎng),看似無辜、無害的大數(shù)據(jù)采礦和營銷不僅會(huì)入侵我們的隱私地帶,而且將悄悄改寫著個(gè)人與制度之間的社會(huì)信任景觀。
誘惑
有關(guān)大數(shù)據(jù)的一切都指向人的遠(yuǎn)古渴望:預(yù)測(cè)和操縱未來。
王爾德(Oscar Wilde)曾經(jīng)說過:我可以抵御任何力量,除了誘惑。
在誘惑面前,我們都是王爾德的同族。這正是大數(shù)據(jù)喜愛我們,而公司們喜愛大數(shù)據(jù)的原因。“買了這款巧克力的,也特別喜歡這種果醬”,“你和上面的這些成功人士都鐘愛這個(gè)品牌的家具,他們中的8個(gè)人剛剛購買了正在促銷的這個(gè)年份的葡萄酒”……聽上去很熟悉嗎?因?yàn)樗鼈兌紒碜?ldquo;大數(shù)據(jù)學(xué)派”。這些經(jīng)典營銷句式、語法和邏輯結(jié)構(gòu)的有用證據(jù)來自“性感的數(shù)據(jù)科學(xué)家”[哈佛商學(xué)院教授達(dá)文波特 (Tom Davenport)語]。
大數(shù)據(jù)的美妙之處遠(yuǎn)不止于電子商務(wù)網(wǎng)站迷人心智的產(chǎn)品推薦,它還能幫助球隊(duì)取勝。邁克爾.劉易斯在《魔球》一書里講述了奧克蘭“運(yùn)動(dòng)家”棒球隊(duì)的經(jīng)營哲學(xué)。運(yùn)動(dòng)家棒球隊(duì)的總經(jīng)理比利.比恩,依靠電腦程序和數(shù)據(jù)模型分析比賽數(shù)據(jù),用以選擇球員,最終他帶領(lǐng)球隊(duì)在美國聯(lián)盟西部賽中奪冠,并創(chuàng)下20場(chǎng)連勝紀(jì)錄。
維克托曾經(jīng)引用這個(gè)案例,說明專家的消亡和數(shù)據(jù)科學(xué)家的崛起。大數(shù)據(jù)的鼓吹者們認(rèn)為,一個(gè)史無前例的新時(shí)代正在到來。人類可以收集、利用的數(shù)據(jù)在規(guī)模(Volumn)、類型(Variety)、速度(Velocity)上有了新的變化。
分布式計(jì)算(hadoop、MapReduce等云計(jì)算技術(shù))、認(rèn)知計(jì)算在內(nèi)的計(jì)算能力的演化,使得存儲(chǔ)和處理數(shù)據(jù)的成本大幅度下降,換言之,存儲(chǔ)和處理海量、實(shí)時(shí)數(shù)據(jù)成為可能;另一方面,iPhone引爆了智能設(shè)備的流行,生產(chǎn)了大量位置信息(IBM公司軟件集團(tuán)信息管理軟件大數(shù)據(jù)全球副總裁Robert Thomas認(rèn)為,位置數(shù)據(jù)的便利可得是大數(shù)據(jù)流行的要素之一)。大量位置信息的累積,為艾伯特-拉斯洛.巴拉巴西(Albert-László Barabási)這樣的研究者提供了前所未有的豐富素材,以揭開人類行為背后隱藏的模式。無尺度網(wǎng)絡(luò)模型創(chuàng)建者、美國東北大學(xué)教授艾伯特-拉斯洛.巴拉巴西,借助各種模型,正在其研究中心預(yù)測(cè)人類行為。他的研究包括:在未來一段時(shí)間,你會(huì)出現(xiàn)在哪些城市里?
一切都指向人的遠(yuǎn)古渴望:預(yù)測(cè)和操縱未來。這一愿望可以遠(yuǎn)溯至古老的占卜和巫術(shù)。如果你能夠預(yù)測(cè)、操縱客戶的需求,那么300%的利潤,也并非遙不可及。
即使案邊沒有艾伯特-拉斯洛的《爆發(fā)》、行為經(jīng)濟(jì)學(xué)家泰勒(Richard Thaler)的《Nudge》、麻省理工神經(jīng)與心理科學(xué)家格瑞別(Ann Graybiel)“老鼠習(xí)性與控制”的報(bào)告,大數(shù)據(jù)領(lǐng)先企業(yè)也早已把相關(guān)心理、神經(jīng)、認(rèn)知習(xí)慣方面的科學(xué)發(fā)現(xiàn)運(yùn)用到營銷設(shè)計(jì)中去了。核物理不殺人,核武器殺人,被大數(shù)據(jù)研究武裝起來的企業(yè)已具備了各種誘惑消費(fèi)的尖端能力。
《紐約時(shí)報(bào)》的杜黑格(Charles Duhigg)發(fā)現(xiàn),生產(chǎn)日用品的寶潔公司雇傭心理習(xí)性專家,幫助他們把一款滯銷的去味產(chǎn)品(Febreze)變成了年銷售10億美元的暢銷貨。訣竅在于,用廣告刺激已經(jīng)脫敏的嗅覺,重新喚起人們?nèi)コ愇兜囊庾R(shí)和欲望,在人們本來已經(jīng)適應(yīng)的氣味環(huán)境中再增加一味化學(xué)品,并養(yǎng)成對(duì)它的偏好和依賴。從美國到中國,寶潔正在聯(lián)手百度公司,以大客戶的身份“支使”后者利用搜索平臺(tái)上的相關(guān)數(shù)據(jù)來進(jìn)行消費(fèi)洞察和“挖潛”。
這種人造的消費(fèi)給誰帶來價(jià)值,為誰的終極利益服務(wù)?在大數(shù)據(jù)游戲中,挖掘價(jià)值和操縱誘惑之間僅隔著沙灘上的一道線。這也解釋了在商業(yè)世界,大數(shù)據(jù)一夜走紅背后的驅(qū)動(dòng)力。
骨感
Farecast的啟示在于,大數(shù)據(jù)的核心在于思維,而非數(shù)據(jù)或者技術(shù)。
當(dāng)然,現(xiàn)實(shí)的骨感,多少可以安撫我們的忐忑。
我們采訪過的本土公司,多數(shù)還在埋頭奮戰(zhàn)“小數(shù)據(jù)”。大數(shù)據(jù)技術(shù)的吆喝者,確實(shí)讓更多人重新思考數(shù)據(jù)潛在的價(jià)值。從數(shù)據(jù)存儲(chǔ)和分析技術(shù)的受追捧程度,可見大數(shù)據(jù)之風(fēng)的一時(shí)盛行。
端午節(jié)前的一周,一場(chǎng)由IBM發(fā)起的云計(jì)算大會(huì)在上海迎來了黑壓壓的觀眾,遠(yuǎn)超出了IBM中國區(qū)云計(jì)算事業(yè)部總經(jīng)理王盛航的預(yù)估。三年以前,對(duì)云計(jì)算還懵懵懂懂的中國公司,如今以極大的熱情投入云計(jì)算浪潮中。極端者如蘇寧電器,鄭重其事地將名字更改為“蘇寧云商”。云服務(wù)提供商發(fā)現(xiàn),存儲(chǔ)數(shù)據(jù)和處理數(shù)據(jù)的現(xiàn)實(shí)需求,不斷增加。
線上零售商“1號(hào)店”三年前開始購買數(shù)據(jù)倉庫,組建BI(Business Intelligence,商業(yè)智能)團(tuán)隊(duì)。像塔吉特、沃爾瑪一樣,1號(hào)店希望能發(fā)現(xiàn)種種有如啤酒與尿布組合的相關(guān)性,以便加快產(chǎn)品周轉(zhuǎn)率。通過數(shù)據(jù),1號(hào)店發(fā)現(xiàn)了可口可樂與奧利奧餅干之間的正相關(guān)性。
新的技術(shù),正在幫助許多雄心勃勃的零售商實(shí)現(xiàn)趕超沃爾瑪?shù)膲?mèng)想。1號(hào)店正在建立一套價(jià)格智能系統(tǒng)(PIS),這套系統(tǒng)能夠在線實(shí)時(shí)搜索60多個(gè)網(wǎng)站、1700多萬商品的庫存信息和價(jià)格信息。1號(hào)店的創(chuàng)始人于剛說,他們依靠PIS進(jìn)行實(shí)時(shí)的價(jià)格調(diào)整,以提升價(jià)格競(jìng)爭(zhēng)力方面的量化指標(biāo)。
類似1號(hào)店P(guān)IS的數(shù)據(jù)產(chǎn)品思路,脫胎于華盛頓大學(xué)人工智能項(xiàng)目負(fù)責(zé)人奧倫.埃齊奧尼(Oren Etzioni)教授的比價(jià)網(wǎng)站Netbot。奧倫還開發(fā)過一套機(jī)票價(jià)格預(yù)測(cè)系統(tǒng)Farecast,他建立了一個(gè)數(shù)學(xué)模型,反映票價(jià)和提前購買天數(shù)之間的關(guān)系,最初的預(yù)測(cè)只是基于41天之內(nèi)的12000個(gè)價(jià)格樣本。2008年,微軟花費(fèi)1.1億美金收購了Farecast。截至2012年,F(xiàn)arecast系統(tǒng)利用將近10萬億條價(jià)格記錄來預(yù)測(cè)美國國內(nèi)航班票價(jià),準(zhǔn)確率高達(dá)75%。
Farecast的啟示在于,大數(shù)據(jù)的核心在于思維,而非數(shù)據(jù)或者技術(shù)本身。12000個(gè)價(jià)格樣本絕對(duì)不符合大數(shù)據(jù)的4V定義。但是,通過奧倫卓越的建模能力,人們可以初步窺見價(jià)格與日期之間的相關(guān)關(guān)系,隨后再對(duì)系統(tǒng)“喂入”新的數(shù)據(jù),不斷優(yōu)化模型,提高預(yù)測(cè)的準(zhǔn)確性。
大數(shù)據(jù)處理能力沒有那么神秘,至少在IBM中國研究院信息管理和醫(yī)療健康首席科學(xué)家潘越看來是如此。與大數(shù)據(jù)相關(guān)的技術(shù),可以歸納為三類:數(shù)據(jù)獲取與治理能力、數(shù)據(jù)分析能力和數(shù)據(jù)呈現(xiàn)能力。潘越等一批科學(xué)家認(rèn)為,技術(shù)的發(fā)展很可能會(huì)使得這些能力“傻瓜化”。
至少現(xiàn)在看來,中國不缺數(shù)據(jù),缺乏的還是能力,奧倫.埃齊奧尼這樣的能力。這也可以解釋為什么大多數(shù)公司更感興趣的是如何處理好“數(shù)據(jù)”,不論規(guī)模大小。
車品覺是阿里巴巴集團(tuán)大數(shù)據(jù)委員會(huì)負(fù)責(zé)人,他認(rèn)為大數(shù)據(jù)是一種“忽悠”。數(shù)據(jù)越多、越大,數(shù)據(jù)分析越復(fù)雜,負(fù)擔(dān)就越沉重。在淘寶的平臺(tái)上,如何“生產(chǎn)”有質(zhì)量的數(shù)據(jù),如何進(jìn)一步挖掘消費(fèi)數(shù)據(jù),這些話題他興致盎然,但他并不熱衷于大數(shù)據(jù)的概念、定義和社會(huì)學(xué)上的討論。
到目前為止,阿里巴巴處理并存儲(chǔ)了超過100PB(1個(gè)PB等于1024個(gè)TB)的數(shù)據(jù)。2013年,它在內(nèi)部建立了一個(gè)虛擬組織單元,稱為數(shù)據(jù)委員會(huì),把分布在阿里巴巴集團(tuán)內(nèi)部25個(gè)事業(yè)部從事數(shù)據(jù)處理業(yè)務(wù)的800多位人員,集中在一起,群策群力應(yīng)對(duì)數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全和數(shù)據(jù)運(yùn)營的挑戰(zhàn)(詳見《解碼阿里數(shù)據(jù)》)。
即便如此,阿里巴巴在數(shù)據(jù)分析上的能力還只能處理和利用淘寶平臺(tái)上有限的數(shù)據(jù),人才被視為實(shí)現(xiàn)數(shù)據(jù)智能的關(guān)鍵制約。在規(guī)模上比淘寶小得多的1號(hào)店,持有相同的觀點(diǎn),于剛抱怨建模人才“非常稀缺”。
從數(shù)據(jù)到數(shù)據(jù)智能,再到大數(shù)據(jù)智能,之間站著1000個(gè)奧倫.埃齊奧尼。
籠子
保護(hù)隱私安全,保障載體公正,這是涉及生命與存在的終極問題。
未實(shí)現(xiàn)不代表不會(huì)發(fā)生。
即便公司們還站在大數(shù)據(jù)時(shí)代的舊石器階段,作為產(chǎn)生數(shù)據(jù)的每一個(gè)個(gè)體,我們應(yīng)該想想未來的場(chǎng)景,畢竟游客們已經(jīng)落入拉斯維加斯賭場(chǎng)的彀中。
去年我的生日設(shè)為1月1日,今年改到4月1日了,因?yàn)槲也幌胱尨蟠笮⌒〉木W(wǎng)絡(luò)公司獲得真實(shí)的私密信息。然而,面對(duì)日益強(qiáng)大的大數(shù)據(jù)技術(shù),消費(fèi)者所做的種種信息偽裝顯得那么幼稚可笑。對(duì)應(yīng)網(wǎng)絡(luò)上的“我”,越來越多的人有多套數(shù)碼身份,但偽信息戰(zhàn)中的失敗一方總是消費(fèi)者。以社交網(wǎng)絡(luò)“臉譜”(Facebook)和“商聯(lián)”(LinkedIn)為首,大數(shù)據(jù)讓個(gè)人隱私無所遁形。
其實(shí),社會(huì)呼喚也亟需能夠促進(jìn)信任、提升責(zé)任的大數(shù)據(jù)。為提高公平透明度,美航剝離了薩博(Sabre)飛行信息和預(yù)訂系統(tǒng)。如今,35萬家旅行社和400家航空公司使用這個(gè)系統(tǒng)。2008年金融危機(jī)后,美國政府立法分離投資銀行自營和代客理財(cái)業(yè)務(wù),遏止公司濫用信息不對(duì)稱的優(yōu)勢(shì);在醫(yī)療行業(yè),“姜網(wǎng)”(Ginger.io)結(jié)合智能手機(jī)、衛(wèi)星定位、哮喘患者報(bào)告,建立了觀察花粉分布、有效治療哮喘的平臺(tái)。這些正反案例都值得中國企業(yè)深思。在建立平臺(tái)、運(yùn)用云計(jì)算、獲取和處理數(shù)據(jù)一體化模式過程中,中國企業(yè)特別需要從正反兩方面認(rèn)識(shí)到大數(shù)據(jù)的社會(huì)性。
研究UFO的人認(rèn)為,外星人殖民地球最簡(jiǎn)單有效的方法就是發(fā)送遺傳基因數(shù)據(jù),然后就地選擇載體。觀點(diǎn)大膽了一些,但道理很實(shí)在:人的一切都能分解為數(shù)據(jù)和載體。保護(hù)隱私安全,保障載體公正,這是涉及生命與存在的終極問題。
“商業(yè)的社會(huì)責(zé)任就是提高利潤。”米爾頓.弗里德曼(Milton Friedman)已經(jīng)告訴我們,生命與存在的問題不能交由商業(yè)機(jī)構(gòu)全權(quán)處理。與大數(shù)據(jù)盛行的北美相比,中國需要制度的籠子,嚴(yán)格保護(hù)隱私的法律;需要商業(yè)規(guī)范的籠子,嚴(yán)格內(nèi)部管理流程,杜絕未經(jīng)客戶允許的信息營銷;需要社會(huì)理念的籠子,讓值得信任的企業(yè)興盛起來;需要應(yīng)用技術(shù)的籠子,像北美醫(yī)療信息軟件一樣,自動(dòng)除去病人的姓名和身份信息,然后輸入大數(shù)據(jù)庫。中國還需要有更多像麻省理工教授烏爾班(Glen Urban)這樣的學(xué)者,呼吁和倡導(dǎo)基于消費(fèi)者信任的營銷策略。
達(dá)文波特教授宣稱,如今的數(shù)據(jù)科學(xué)家類似于上世紀(jì)八九十年代華爾街的金融數(shù)量分析師。過去30年中,華爾街的金融工程創(chuàng)新給世界帶來了什么?回望余波未盡的2008年金融危機(jī),他應(yīng)該明白,更需要馴服的是那些掌握大數(shù)據(jù)的大企業(yè)。