大數(shù)據(jù)和大數(shù)據(jù)平臺(tái)的作用
掃描二維碼
隨時(shí)隨地手機(jī)看文章
近年來,“大數(shù)據(jù)”時(shí)下一個(gè)熱門的詞語,,似乎越來越多的行業(yè)和人們開始關(guān)注并實(shí)際探索大數(shù)據(jù)的應(yīng)用。我們一起勾勒出大數(shù)據(jù)的偉大用途的藍(lán)圖,但在實(shí)踐的道路上,我們都是初級(jí)階段的孩子。
大數(shù)據(jù)根基于互聯(lián)網(wǎng),數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、云計(jì)算等互聯(lián)網(wǎng)技術(shù)的發(fā)展為大數(shù)據(jù)應(yīng)用奠定基礎(chǔ)。對(duì)于任何一個(gè)大數(shù)據(jù)的從業(yè)者或初接觸者,或者都會(huì)有個(gè)共同的感觸:大數(shù)據(jù)很有用!大數(shù)據(jù)該怎么用呢?
1、大數(shù)據(jù)是什么?
對(duì)于大數(shù)據(jù)的定義,我們來引用3個(gè)比較差用的大數(shù)據(jù)定義:
1)Gartner:需要信息處理模式才能具有更強(qiáng)的決策力,洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率很多樣化的信息資產(chǎn)。
2)IDC:海量的數(shù)據(jù)規(guī)模(Volunme)、快速的數(shù)據(jù)流轉(zhuǎn)和數(shù)據(jù)體系(Velocity)、多樣的數(shù)據(jù)類型(Variety)、巨大的數(shù)據(jù)價(jià)值(Value)。
3)Wiki:或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時(shí)間內(nèi)達(dá)到截取、管理、處理、并整理成為人類所能解讀的信息。
其他關(guān)于大數(shù)據(jù)的定義也大抵類型,我們可以用幾個(gè)關(guān)鍵詞對(duì)大數(shù)據(jù)做一個(gè)界定。
首先,“大規(guī)模”,這種規(guī)模可以從兩個(gè)維度來衡量,一是時(shí)間序列累積大量的數(shù)據(jù),二是在深度上更加細(xì)化的數(shù)據(jù)。
其次,“多樣化”,可以是不同的數(shù)據(jù)格式,如文字、圖片、視頻等,可以是不同的數(shù)據(jù)類別,如入口數(shù)據(jù),經(jīng)濟(jì)數(shù)據(jù)等,還可以有不同的數(shù)據(jù)來源,如互聯(lián)網(wǎng)、傳感器等。
最后,“動(dòng)態(tài)化”,數(shù)據(jù)是不停變化的,可以隨著時(shí)間快速增加大量數(shù)據(jù),也可以是在空間上不斷移動(dòng)變化的數(shù)據(jù)。
這三個(gè)關(guān)鍵詞對(duì)大數(shù)據(jù)從形象上做了界定。
但是還需要一個(gè)關(guān)鍵能力,就是“處理速度快”。如果這么大規(guī)模、多樣化又動(dòng)態(tài)變化的數(shù)據(jù)有了,但需要很長(zhǎng)的時(shí)間去處理分析,那不叫大數(shù)據(jù)。從另一個(gè)角度,要實(shí)現(xiàn)這些數(shù)據(jù)快速處理,靠人工肯定是沒辦法實(shí)現(xiàn)的,因此,需要借助于機(jī)器實(shí)現(xiàn)。
最終,我們借助機(jī)器,通過對(duì)這些數(shù)據(jù)進(jìn)行快速的處理分析,獲取想要的信息或者應(yīng)用的整套體系,才能稱為大數(shù)據(jù)。
2、大數(shù)據(jù)平臺(tái)
大數(shù)據(jù)并不是一場(chǎng)市場(chǎng)炒作。對(duì)于許多跨多個(gè)垂直的組織而言,大數(shù)據(jù)是真實(shí)存在的,而且它正在改變數(shù)據(jù)中心的架構(gòu)。隨著數(shù)據(jù)量、數(shù)據(jù)處理速度和數(shù)據(jù)類型的復(fù)雜度以遠(yuǎn)超標(biāo)準(zhǔn)前端和后臺(tái)處理能力的速度增長(zhǎng),大數(shù)據(jù)在不斷增長(zhǎng),這迫使企業(yè)的IT團(tuán)隊(duì)考慮采用新的方式處理業(yè)務(wù)需求。
hadoop平臺(tái)對(duì)于非操作非常大型的數(shù)據(jù)集而言是一個(gè)強(qiáng)大的工具。Hadoop是Apache軟件基金會(huì)的一個(gè)頂級(jí)項(xiàng)目,用java語言編寫。Hadoop的設(shè)計(jì)靈感來自于谷歌在其其Google File System(GFS)和MapReduce編程模式上的工作。Hadoop實(shí)際上是其創(chuàng)始人DougCutting的兒子給自己的毛絨玩具大象起的名字。
流數(shù)據(jù)分析也是一種重要的大數(shù)據(jù)技術(shù)。IBM InfoSphereStreams是目前業(yè)界獨(dú)有的流數(shù)據(jù)處理技術(shù)。在IBM InfoSphere Streams中,數(shù)據(jù)將會(huì)流過有能力操控?cái)?shù)據(jù)流(每秒鐘可能包含數(shù)百萬個(gè)事件)的運(yùn)算符,然后對(duì)這些數(shù)據(jù)執(zhí)行動(dòng)態(tài)分析。這項(xiàng)分析可觸發(fā)大量事件,使企業(yè)利用即時(shí)的智能實(shí)時(shí)采取行動(dòng),最終改善業(yè)務(wù)成果。
IBM的大數(shù)據(jù)戰(zhàn)略以其在2012年5月發(fā)布智慧分析洞察“3A5步”動(dòng)態(tài)路線圖作為基礎(chǔ)。
IBM提出的“大數(shù)據(jù)平臺(tái)”架構(gòu)具備四大核心能力:包括Hadoop系統(tǒng)、流計(jì)算(Stream Computing)、數(shù)據(jù)倉庫(Data Warehouse)和信息整合與治理(Information Integration and Governance)。其中的代表產(chǎn)品有IBM InfoSphere BigInsights、IBM InfoSphere Streams、InfoSphere Warehouse、IBM PureData系統(tǒng)等。
IBM針對(duì)大數(shù)據(jù)環(huán)境的數(shù)據(jù)安全解決方案則包括IBM InfoSphere Guardium for Hadoop、IBM InfoSphere Optim Data Privacy,以及IBM Tivoli Key Lifecycle Manager。
大數(shù)據(jù)_云計(jì)算_IBM
3、大數(shù)據(jù)可以做什么?
想要應(yīng)用大數(shù)據(jù),從流程來說,大概是這樣。大數(shù)據(jù)_互聯(lián)網(wǎng)_云計(jì)算
首先我們要有數(shù)據(jù)源,然后對(duì)數(shù)據(jù)進(jìn)行收集和存儲(chǔ),在這基礎(chǔ)上,再進(jìn)行分析和應(yīng)用,形成我們的產(chǎn)品和服務(wù),而產(chǎn)品和服務(wù)也會(huì)產(chǎn)生新的數(shù)據(jù),這些數(shù)據(jù)會(huì)循環(huán)進(jìn)入我們的流程中。
當(dāng)這整個(gè)循環(huán)體系成為一個(gè)智能化的體系,他通過機(jī)器可以實(shí)現(xiàn)自動(dòng)化,那也許就會(huì)成為一種新的模式,不管是商業(yè)的,還是其他。
然后具體到實(shí)際的應(yīng)用中,大數(shù)據(jù)能夠?qū)崿F(xiàn)的應(yīng)用,可以概括為兩個(gè)方向,一是精準(zhǔn)化定制,二是預(yù)測(cè)。
主要是針對(duì)供需兩方的,獲取需方的個(gè)性化需求提供產(chǎn)品,最終實(shí)現(xiàn)供需雙方的最佳匹配。
大數(shù)據(jù)_java_搜索具體應(yīng)用舉例,也可以歸納為三類。
一是個(gè)性化產(chǎn)品,比如智能化的搜索引擎搜索同樣的內(nèi)容,每個(gè)人的結(jié)果都不同,或者是一些定制化的新聞服務(wù),或者是網(wǎng)游等。
第二種是精準(zhǔn)營(yíng)銷,現(xiàn)在已經(jīng)比較常見的互聯(lián)網(wǎng)營(yíng)銷,網(wǎng)頁的推廣等,或者是基于地理位置的信息推送,當(dāng)我到達(dá)某個(gè)地方,會(huì)自動(dòng)推送周邊的消費(fèi)設(shè)施等。
第三種是選址定位,包括零售店面的選址,或者是公共基礎(chǔ)設(shè)施的選址。
這些全都是通過對(duì)用戶需求的大數(shù)據(jù)分析,然后提供相對(duì)定制化的服務(wù)。
應(yīng)用的第二個(gè)方向,預(yù)測(cè)。
預(yù)測(cè)主要是圍繞目標(biāo)對(duì)象,基于它過去、未來的一些相關(guān)因素和數(shù)據(jù)分析,從而提前做出預(yù)警,或者是實(shí)時(shí)動(dòng)態(tài)的優(yōu)化。
互聯(lián)網(wǎng)_云計(jì)算_大數(shù)據(jù)從具體的應(yīng)用上,也大概可以分為三類。
一類是支持類的,小到企業(yè)的運(yùn)營(yíng)決策,證券投資決策,醫(yī)療行業(yè)的臨床診療支持,以及電子政務(wù)等。
二是風(fēng)險(xiǎn)預(yù)警類的,比如疫情預(yù)測(cè),日常健康管理的疾病預(yù)測(cè),設(shè)備實(shí)施的運(yùn)營(yíng)維護(hù),公共安全,以及金融行業(yè)的信用風(fēng)險(xiǎn)管理等。
第三種是實(shí)時(shí)優(yōu)化類的,比如智能線路規(guī)劃,實(shí)時(shí)定價(jià)等。
以上呢,是對(duì)于大數(shù)據(jù)可以用來做什么的一些暢想,事實(shí)上也許大數(shù)據(jù)可以做的事情,可以擴(kuò)展到方方面面。
但是,我們?cè)倏纯船F(xiàn)實(shí)中,大數(shù)據(jù)實(shí)際應(yīng)用到了什么程度呢?
目前,大數(shù)據(jù)真正實(shí)現(xiàn)了商業(yè)化的應(yīng)用,只有一種,就是互聯(lián)網(wǎng)營(yíng)銷。其他我們列舉的方向,會(huì)有些初步的應(yīng)用,但基本都還停留在探索的階段。比如疫情預(yù)測(cè),無抵押信用貸款等,對(duì)于準(zhǔn)確性,精細(xì)度,可推廣性方面還是有待推敲。造成大數(shù)據(jù)實(shí)際應(yīng)用于目標(biāo)藍(lán)圖之間的差距的主要原因是什么,認(rèn)為是數(shù)據(jù)源的問題,你必須先獲得數(shù)據(jù),然后才能應(yīng)用數(shù)據(jù)。因此,數(shù)據(jù)的可獲取性,成為大數(shù)據(jù)在具體行業(yè)應(yīng)用性評(píng)價(jià)的一個(gè)重要維度??梢詮臄?shù)據(jù)的標(biāo)準(zhǔn)化、開放性和集中度幾個(gè)維度衡量數(shù)據(jù)可獲取性。同時(shí),獲取數(shù)據(jù)之后,在應(yīng)用數(shù)據(jù)方面,可以從大數(shù)據(jù)應(yīng)用的潛在價(jià)值維度來衡量,包括績(jī)效的提升,成本降低或者是新模式的產(chǎn)生。
此外,還可以從大數(shù)據(jù)行業(yè)應(yīng)用的可復(fù)制/推廣性的角度來衡量,不僅包括在本行業(yè)內(nèi)的推廣,同時(shí)也包括跨行業(yè)的推廣性。
從三個(gè)維度,對(duì)大數(shù)據(jù)在各行業(yè)應(yīng)用的可能性做了一個(gè)定位,但這個(gè)定位還是非常定性和粗略的,具體可能需要對(duì)行業(yè)有更多的大數(shù)據(jù)應(yīng)用的探討和探索。
大數(shù)據(jù)和大數(shù)據(jù)平臺(tái)是什么,有什么作用?中琛魔方大數(shù)據(jù)表示:大數(shù)據(jù)時(shí)代已經(jīng)到來,這是一個(gè)時(shí)代的變化。只有抓住機(jī)遇,建立數(shù)據(jù)平臺(tái)并將其應(yīng)用于企業(yè)行業(yè),我們才不會(huì)被這個(gè)時(shí)代所淘汰。隨著時(shí)代的更迭,演變出更適合發(fā)展的模式。