大數(shù)據(jù),不樂觀
大數(shù)據(jù)的廣泛應(yīng)用,或許會拉大中國與先進國家的差距。
大數(shù)據(jù)的熱度開始逐漸起來,就仿佛幾年前的云計算。
這將是一個根本性的變化。此前,我們的幾乎所有研究、推理和假設(shè),都是依賴于采樣數(shù)據(jù)。雖然從統(tǒng)計學的角度來講,采樣分析的精確性隨著采樣隨機性的增加而大幅提高,與樣本數(shù)量的增加關(guān)系不大。但是保證采樣的隨機性本身就是一個巨大的挑戰(zhàn),同時采樣會讓我們忽視眾多細節(jié)。所以,當我們有能力收集所有數(shù)據(jù)的時候,當“樣本=總體”的時候,世界會展現(xiàn)出一個全新的樣子。例如IBM把公司所有的財務(wù)數(shù)據(jù)和銷售數(shù)據(jù)整合在一起的時候,就可以思考一下“中秋節(jié)送月餅是否對銷售有促進作用”這樣非常細節(jié)的問題。
但是,大數(shù)據(jù)雖然神奇,它也只是一個概念,能否釋放出巨大的能量還受到諸多因素的限制。
最近我總是和朋友們談起一個故事。話說林彪從帶兵開始,身邊就有個本子,每次打完仗,他就把戰(zhàn)果記在上面,不厭其煩。不了解的人,還以為他以此為樂。
1948年遼沈戰(zhàn)役打響后,無論戰(zhàn)情如何緊急,多么疲憊,林彪依然每天堅持聽軍情匯報,而且對戰(zhàn)報要求很細:俘虜要分清軍官和士兵;繳獲的槍支要統(tǒng)計出機槍、長槍、短槍;擊毀的和還能使用的汽車要分出大小和類別,每份戰(zhàn)報幾乎都是千篇一律的枯燥數(shù)據(jù)。
1948年10月14日,東北野戰(zhàn)軍攻克錦州后,又揮師北上,與從沈陽出來增援的廖耀湘兵團20余萬人迎頭撞上,混戰(zhàn)在一起,戰(zhàn)局瞬息萬變。一天深夜,值班參謀正讀著一份遭遇戰(zhàn)的戰(zhàn)報,林彪聽著聽著,突然叫“停”。他問周圍的人:“剛才念的在胡家窩棚那個戰(zhàn)斗的繳獲你們聽到了嗎?”周圍的人滿臉都是睡意和茫然,因為像這樣的戰(zhàn)斗每天都有幾十起,只是枯燥的數(shù)字稍有不同。林彪見無人回答,便接連提出3個問題:“為什么那兒繳獲的短槍與長槍的比例比其他的戰(zhàn)斗略高?為什么那兒繳獲和擊毀的小車與大車的比例比其他的戰(zhàn)場略高?為什么那兒俘獲和擊斃的軍官與士兵的比例比一般殲敵略高?”
人們還沒來得及思索,林彪已指著軍用地圖說:“我猜想……不,我斷定!敵人的野戰(zhàn)指揮所就在這兒!”隨后,林彪命令全力追擊從胡家窩棚逃走的那股敵人。廖耀湘剛剛還在慶幸自己在意外的遭遇戰(zhàn)中幸免于難,很快就發(fā)現(xiàn)被漫山遍野的解放軍團團圍住,還不斷有人高呼“矮胖子,白凈臉,金絲眼鏡湖南腔,不要放走廖耀湘”的順口溜。壓力如此之大,只好舉手投降,遼沈戰(zhàn)役就此塵埃落地。
這其實是個典型的大數(shù)據(jù)故事,說明了關(guān)于大數(shù)據(jù)的幾個關(guān)鍵點:
第一,大數(shù)據(jù)并不神秘,古已有之;
第二,數(shù)據(jù)的收集最重要,但是一件長期且困難的事情;
第三,利用好大數(shù)據(jù),依然需要敏銳的洞察和創(chuàng)新的思維。
對于中國企業(yè)來說,大數(shù)據(jù)的流行,挑戰(zhàn)更大于機會。因為從文化來講,中國歷史上就不是習慣于用數(shù)字管理的國家,而美國人連飛機漆成什么顏色更容易被擊落都會進行統(tǒng)計。這種意識上的差異,就造成了我們骨子里對于數(shù)據(jù)的重視程度遠遠不夠,這會在數(shù)據(jù)的采集、利用和分析上,帶來很多問題。
最直接的一個例子,在公開的美國政府網(wǎng)站Data.gov上,大約有超過40萬各種原始數(shù)據(jù)文件,涵蓋農(nóng)業(yè)、金融、就業(yè)等近50個分類。美國官方稱這么做的目的是“方便公眾更便捷地獲得聯(lián)邦政府數(shù)據(jù),并通過鼓勵創(chuàng)新突破政府的圍墻而創(chuàng)造性地使用這些數(shù)據(jù)”
這個差距就足夠追趕了。