大數(shù)據(jù)是什么?能做什么?
2013年被稱為大數(shù)據(jù)元年,各行各業(yè)都逐漸開啟大數(shù)據(jù)應(yīng)用時代。直至現(xiàn)在,大數(shù)據(jù)依然為人所津津樂道。
何為大數(shù)據(jù)?
1PB夠大嗎?
如果你沒有直觀印象,可以聯(lián)想一下你的電腦硬盤容量,標(biāo)配是500G-1TB,大部分人用了一兩年,可能這部分容量都沒用完。而1PB=1024TB=1048576GB。
在實際中,一個小有名氣的游戲一天的數(shù)據(jù)量就在數(shù)十TB左右,甚至更多。
如果你以為PB單位已經(jīng)是最大了?那就大錯特錯了!!!!
在PB之上,還有EB(Exabyte 百億億字節(jié) 艾字節(jié)),ZB(Zettabyte 十萬億億字節(jié) 澤字節(jié)),YB(Yottabyte 一億億億字節(jié) 堯字節(jié)),而這些單位也只是為了方便統(tǒng)計海量數(shù)據(jù)所給出的當(dāng)前單位,在未來還可能出現(xiàn)更大的單位。
因特爾公司首席執(zhí)行官Brian Krzanich表示,2020年互聯(lián)網(wǎng)用戶每天將產(chǎn)生1.5GB的數(shù)據(jù)。
HIS數(shù)據(jù)預(yù)測,到2025年,全球互聯(lián)網(wǎng)(IoT)連接設(shè)備的總安裝量預(yù)計將達(dá)到754.4億,這部分設(shè)備每天產(chǎn)生的數(shù)據(jù)量可想而知。
按照前面的數(shù)據(jù)關(guān)系,得出1ZB大概是1.1萬億GB,等同于全世界沙子數(shù)量總和。
從上圖中不難看出,互聯(lián)網(wǎng)數(shù)據(jù)每年都在爆炸式增長。當(dāng)然,大數(shù)據(jù)并不只是數(shù)據(jù)量大而已,它還有其他更深的含義。
對于大數(shù)據(jù),麥肯錫全球研究所給出的定義是:
”一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合。“
大數(shù)據(jù)具有五大特點,稱為5V。
1. 多樣(Variety)
大數(shù)據(jù)的多樣性是指數(shù)據(jù)的種類和來源是多樣化的,數(shù)據(jù)可以是結(jié)構(gòu)化的、半結(jié)構(gòu)化的以及非結(jié)構(gòu)化的,數(shù)據(jù)的呈現(xiàn)形式包括但不僅限于文本,圖像,視頻,HTML頁面等等。
2. 大量(Volume)
大數(shù)據(jù)的大量性是指數(shù)據(jù)量的大小,這個就是上面筆者介紹的內(nèi)容,不再贅述。
3. 高速(Velocity)
大數(shù)據(jù)的高速性是指數(shù)據(jù)增長快速,處理快速,每一天,各行各業(yè)的數(shù)據(jù)都在呈現(xiàn)指數(shù)性爆炸增長。在許多場景下,數(shù)據(jù)都具有時效性,如搜索引擎要在幾秒中內(nèi)呈現(xiàn)出用戶所需數(shù)據(jù)。企業(yè)或系統(tǒng)在面對快速增長的海量數(shù)據(jù)時,必須要高速處理,快速響應(yīng)。
4. 低價值密度(Value)
大數(shù)據(jù)的低價值密度性是指在海量的數(shù)據(jù)源中,真正有價值的數(shù)據(jù)少之又少,許多數(shù)據(jù)可能是錯誤的,是不完整的,是無法利用的??傮w而言,有價值的數(shù)據(jù)占據(jù)數(shù)據(jù)總量的密度極低,提煉數(shù)據(jù)好比浪里淘沙。
5. 真實性(Veracity)
大數(shù)據(jù)的真實性是指數(shù)據(jù)的準(zhǔn)確度和可信賴度,代表數(shù)據(jù)的質(zhì)量。
數(shù)據(jù)一直都在,變革的是方式
大數(shù)據(jù)的意義不僅僅在于生產(chǎn)和掌握龐大的數(shù)據(jù)信息,更重要的是對有價值的數(shù)據(jù)進(jìn)行專業(yè)化處理。
人類從來不缺數(shù)據(jù),缺的是對數(shù)據(jù)進(jìn)行深度價值挖掘與利用。可以說,從人類社會有了文字以來,數(shù)據(jù)就開始存在了,現(xiàn)在亦是如此。這其中唯一改變的是數(shù)據(jù)從產(chǎn)生,到記錄,再到使用這整個流程的形式。
1. 數(shù)據(jù)生產(chǎn)
在人類社會的早期,民以食為天,數(shù)據(jù)的產(chǎn)生大多與商品,食物,土地等掛鉤。舊石器時代的部落人民在樹枝或骨頭上刻下凹痕來記錄日常的交易活動或物品供應(yīng)。
為了衡量商品長度,中國人發(fā)明了尺、里、寸、丈、步、仞等長度單位;為了衡量重量,發(fā)明了升、斗,斛等重量單位。
在互聯(lián)網(wǎng)時代,數(shù)據(jù)的生產(chǎn)變得更為容易。美國互聯(lián)網(wǎng)數(shù)據(jù)中心曾指出,互聯(lián)網(wǎng)上的數(shù)據(jù)每年都將增長50%,每兩年便將翻一倍,而目前世界上90%以上的數(shù)據(jù)是最近幾年才產(chǎn)生的。
每人每天都會產(chǎn)生海量數(shù)據(jù),如視頻數(shù)據(jù),電商數(shù)據(jù),社交數(shù)據(jù)等等。
2. 數(shù)據(jù)記錄
千年之前,人們用龜甲石鼓、簡牘絹帛到造紙術(shù)成熟后的刻本等一切觸手可及的器物來作為數(shù)據(jù)的載體。
千年之后,人們用圖書,報紙,硬盤,光盤,存儲器等各種更為靈活,簡便的方式記錄數(shù)據(jù)。
3. 數(shù)據(jù)利用
古人利用利用甲骨文占卜判斷兇吉,利用占星術(shù)預(yù)測朝代興衰;利用螞蟻搬家,燕子低飛,蚯蚓出洞來預(yù)測天氣。
互聯(lián)網(wǎng)時代,企業(yè)或產(chǎn)品利用電商數(shù)據(jù)為用戶推薦商品,利用社交數(shù)據(jù)做廣告營銷等等。
在大數(shù)據(jù)概念興起之前,大部分企業(yè)并沒有注意到數(shù)據(jù)的寶貴價值,只是在純粹的生產(chǎn)和記錄數(shù)據(jù)。更有甚者視海量數(shù)據(jù)為累贅,因為數(shù)據(jù)的存儲與管理需要耗費(fèi)企業(yè)大量的成本,極少有企業(yè)能把數(shù)據(jù)作為一種資源,嗅到大數(shù)據(jù)背后的價值,從而加以利用。就算到現(xiàn)在,數(shù)據(jù)資源的整合利用能力依然是考驗每個企業(yè)的一大難點。
大數(shù)據(jù)應(yīng)用
大數(shù)據(jù)作為一個能夠改變產(chǎn)業(yè)應(yīng)用的技術(shù),只有切實落地才能帶來真正的價值。
其實大數(shù)據(jù)的應(yīng)用范圍非常廣,不單單限于互聯(lián)網(wǎng)行業(yè),在其他諸如金融,制造業(yè),交通物流方面也都有非常大的應(yīng)用價值。
1. 大數(shù)據(jù)讓借貸款更加放心
在金融行業(yè)中,以借貸款為例。在貸款前,貸款借出方會先利用大數(shù)據(jù)對借款人進(jìn)行貸前審核,以此來保障貸后的還款率。
借出方從各個渠道合法收集借款人的標(biāo)簽信息,如學(xué)歷,職業(yè),薪資狀況,歷史借還款情況等(據(jù)說一個用戶的標(biāo)簽維度可以達(dá)到7000個)。海量數(shù)據(jù)被放入反欺詐模型,還款能力模型,身份驗證模型等數(shù)個中做訓(xùn)練,最終得出是否通過本次貸款申請,貸款的額度,貸款人的還款意愿等評估信息。
借款人數(shù)據(jù)收集的越多,標(biāo)簽維度越細(xì),數(shù)據(jù)越真實,則審核效果越全面。
2. 大數(shù)據(jù)讓廣告營銷更高效
廣告作為互聯(lián)網(wǎng)行業(yè)最常見的變現(xiàn)手段之一,大數(shù)據(jù)賦能廣告營銷,讓廣告從惹人惱轉(zhuǎn)變?yōu)閺V告即內(nèi)容,廣告即服務(wù)。
曾幾何時,你會發(fā)現(xiàn)日常生活中看到的廣告居然那么懂你。點開淘寶,你最愛的商品被推薦在Banner首頁;打開微信朋友圈,映入眼簾的是你正想要做的汽車保養(yǎng);打開百度搜索,你前兩天看的別墅信息赫然出現(xiàn)。
這一切的實現(xiàn)都得益于大數(shù)據(jù)賦能廣告。
在廣告投放前期,通過大數(shù)據(jù)手段大量的整合、分析數(shù)據(jù),包括用戶的瀏覽習(xí)慣、消費(fèi)行為、瀏覽記錄、對廣告的點擊數(shù)量等,并從中挖掘出有效的信息;構(gòu)建全面的用戶畫像,結(jié)合廣告業(yè)務(wù),精準(zhǔn)定位目標(biāo)用戶,保證廣告定向投放。
在廣告投放的中后期,通過實時數(shù)據(jù)反饋,結(jié)合用戶所處地域,時間的變化,動態(tài)優(yōu)化廣告素材,調(diào)整廣告的呈現(xiàn)方式與廣告的展覽位置,讓同一個用戶在不同的場景下享受不一樣的廣告服務(wù),實現(xiàn)一人千面,增加廣告營銷效果,提升廣告主KPI。
3. 大數(shù)據(jù)賦能零售
新零售時代,客戶的需求無時無刻不在變化,大數(shù)據(jù)賦能零售,讓零售在人,貨,場上進(jìn)行變革。
零售商可以借助大數(shù)據(jù)對未來市場需求進(jìn)行預(yù)測,搶先一步對庫存進(jìn)行管理。在流量高發(fā)的前期,及時補(bǔ)足庫存,提升商品供應(yīng)率;在流量散去的前期,及時去庫存,避免庫存積壓。
借助大數(shù)據(jù)分析用戶地域分布情況,商店流量,消費(fèi)者習(xí)慣等那個,在合適的地區(qū)開設(shè)商店,建造倉庫。在物流發(fā)貨時,從數(shù)據(jù)出發(fā),合理規(guī)劃運(yùn)輸路勁,降低運(yùn)輸成本。
利用數(shù)據(jù)還可以統(tǒng)一上下游供應(yīng)鏈交互,解決數(shù)據(jù)不對成問題,減小牛鞭效應(yīng),提升供應(yīng)鏈中每個環(huán)節(jié)的利用效率。
總結(jié)
數(shù)據(jù)一直都在,大數(shù)據(jù)變革的只是方式。大數(shù)據(jù)并不神秘,神秘的是對未知數(shù)據(jù)的探索與利用。