從《大數(shù)據(jù)時代》尋找大數(shù)據(jù)思維
大數(shù)據(jù)(big data),IT行業(yè)術(shù)語,是指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)這個概念聽說過挺久的了,但一直沒有系統(tǒng)了解,由于工作需要,想做點深入了解,于是翻了關(guān)于大數(shù)據(jù)的經(jīng)典之作《大數(shù)據(jù)時代》,猛然發(fā)現(xiàn)這本書出版于2012年,已是七年前的著作了。
與大數(shù)據(jù)對應(yīng)的是小數(shù)據(jù),在小數(shù)據(jù)時代,由于技術(shù)條件的限制,人類無法獲取大量的數(shù)據(jù),即便獲取了,也無法快速處理那些數(shù)據(jù),為了解決這一難題,聰明的人類發(fā)明了隨機采樣法。在隨機采樣中,由于一切都是隨機的,它本身就綜合了各種因素,又排除了人為因素,所以它的結(jié)論也大致滿足需求。但是在大數(shù)據(jù)時代,樣本=總體。要所有數(shù)據(jù),不管這數(shù)據(jù)是對的還是錯的,有意的或無意的,有用的還是無用的,全要。一個最簡單的例子是翻譯軟件的發(fā)展,在最開始的版本中,翻譯學(xué)家想要把一切語言規(guī)則都內(nèi)置到軟件中,他們認為這樣軟件就會實現(xiàn)自動翻譯,結(jié)果他們發(fā)現(xiàn)自己得到了一坨屎。
《大數(shù)據(jù)時代》這部書算是易懂的,因為它是從宏觀的角度講了大數(shù)據(jù)時代帶來的思維變革,還有很多豐富詳實的案例,但并不涉及數(shù)據(jù)處理細節(jié)那些瑣碎的東西,所以對于非專業(yè)人士來講讀起來并不困難甚至可以說是有趣的。當下的翻譯軟件則不然,它的“師傅們”不再是一堆語言規(guī)則,而是全世界人民!首先,開發(fā)人員先把館藏雙語對照的書籍植入計算機中,其次每個人每天在網(wǎng)絡(luò)上發(fā)的雙語對話都會被計算機記錄并學(xué)習(xí),目前的計算機已經(jīng)可以實現(xiàn)深度學(xué)習(xí),即不要內(nèi)置規(guī)則,它根據(jù)大量的輸入自己學(xué)習(xí)規(guī)則。
在這個簡單的例子中已經(jīng)彰顯出大數(shù)據(jù)的三個特點:
更多:不是隨機樣本,而是全部數(shù)據(jù);
更雜:不是精確性,而是混雜性;
更好:不是因果關(guān)系,而是相關(guān)關(guān)系。
數(shù)據(jù)主義即只認數(shù)據(jù),唯數(shù)據(jù)是從,極端情況就類似于電影《少數(shù)派報告》所展現(xiàn)的場景了,在電影里有三個人具備預(yù)知能力,警方用他們的超能力實施罪前打擊,當一個人想要犯罪還沒有犯罪的當口抓住他,而在數(shù)據(jù)時代,當一個人奉數(shù)據(jù)為圭臬時,他可能六親不認只認數(shù)據(jù),當數(shù)據(jù)預(yù)測到某人要犯罪時,是直接抓他坐牢還是坐等他犯罪?這是個問題。
首先第一點“要全部數(shù)據(jù)”很好理解,本來就是大數(shù)據(jù)嘛,其次第二點“不是精確性而是混雜性”這點也容易理解,這個世界本來就是混亂的,想要秩序不過是人類的一廂情愿而已,從混亂的世界中得到的數(shù)據(jù)自然也是混亂的、不精確的,但這樣的數(shù)據(jù)才能更真實地反映世界的本來面目,何必追求精確呢?在翻譯軟件的例子中,當計算機去識別網(wǎng)絡(luò)上的語句時,它是無法保證每個人寫的都是正確的,但正是這種多樣性的存在才更能賦予計算機翻譯的智能性。最不好理解也最有爭議的就是第三點,用相關(guān)關(guān)系替代因果關(guān)系。相關(guān)關(guān)系顧名思義,當一種現(xiàn)象發(fā)生變化時,另一種現(xiàn)象隨之改變,這說明兩種現(xiàn)象是相關(guān)的,但這里并不強調(diào)二者之間有什么邏輯上的因果性,因果關(guān)系則不然。
在心理學(xué)上有個第三變量問題,說當兩個現(xiàn)象具有相關(guān)關(guān)系時,人們往往會把它誤當作因果關(guān)系,而忽略第三變量。一個典型的例子是說私立學(xué)校和公立學(xué)校教育水平問題,一般來講,人們只看到私立學(xué)校教出來的學(xué)生更優(yōu)秀就認為他們的教育水平更好,而往往忽略上私立學(xué)校的孩子家庭條件更好,父母的受教育程度更好,而這才是影響孩子學(xué)習(xí)成績的關(guān)鍵因素。
從大數(shù)據(jù)的角度來講,取消因果關(guān)系是明智的,因為當數(shù)據(jù)龐大了以后,想要分析因果關(guān)系勢必登天,因為它牽扯的因素太多了,根本無法分析,更重要的是,人們需要因果關(guān)系嗎?人們只需要知道這件事發(fā)生了以后接下來會發(fā)生什么就足夠了,至于為什么會發(fā)生,誰關(guān)心呢?上帝嗎?關(guān)心這個問題的大概都是哲學(xué)家。哲學(xué)家們會擔心,沒有了因果關(guān)系,人在計算機面前就會像傻子一樣任人擺布,這是一種墮落。但不管如何,大數(shù)據(jù)時代的特點就是這樣,接受它你就邁入了大數(shù)據(jù)時代。在這樣的背景下,數(shù)據(jù)開始值錢了,但也不是說誰有數(shù)據(jù)誰就能雄霸天下。有的公司空有一堆數(shù)據(jù)但不會處理,有的公司知道怎么處理數(shù)據(jù)但卻缺少創(chuàng)新思維,不知道拿來何用。最好的是那些既有數(shù)據(jù)又知道怎么處理數(shù)據(jù)還具備創(chuàng)新思維的公司,但這樣的公司又極易淪為數(shù)據(jù)主義。