當(dāng)前位置:首頁(yè) > 物聯(lián)網(wǎng) > 物聯(lián)網(wǎng)技術(shù)文庫(kù)
[導(dǎo)讀] 數(shù)據(jù)倉(cāng)庫(kù)是所有產(chǎn)品的數(shù)據(jù)中心,公司體系下的所有產(chǎn)品產(chǎn)生的所有數(shù)據(jù)最終都流向數(shù)據(jù)倉(cāng)庫(kù),可以說(shuō)數(shù)據(jù)倉(cāng)庫(kù)不產(chǎn)生數(shù)據(jù),也不消費(fèi)數(shù)據(jù),只是數(shù)據(jù)的搬運(yùn)工。 記得很久以前曾有一位前輩和我說(shuō)過(guò)

數(shù)據(jù)倉(cāng)庫(kù)是所有產(chǎn)品的數(shù)據(jù)中心,公司體系下的所有產(chǎn)品產(chǎn)生的所有數(shù)據(jù)最終都流向數(shù)據(jù)倉(cāng)庫(kù),可以說(shuō)數(shù)據(jù)倉(cāng)庫(kù)不產(chǎn)生數(shù)據(jù),也不消費(fèi)數(shù)據(jù),只是數(shù)據(jù)的搬運(yùn)工。

記得很久以前曾有一位前輩和我說(shuō)過(guò):“進(jìn)來(lái)的數(shù)據(jù)是垃圾數(shù)據(jù),出去也是垃圾數(shù)據(jù)”。

在實(shí)際環(huán)境中,往往我們一條業(yè)務(wù)線會(huì)由多個(gè)不同的系統(tǒng)支撐組成(例如:很多電商后端業(yè)務(wù)線都區(qū)分為庫(kù)存系統(tǒng)、售后系統(tǒng)、采購(gòu)系統(tǒng)、CRM系統(tǒng)等)。這些系統(tǒng)由于本身設(shè)計(jì)的缺陷或業(yè)務(wù)流程變更等問(wèn)題,所產(chǎn)生的數(shù)據(jù)往往都是有缺失、冗余的,如果直接使用這些數(shù)據(jù)去進(jìn)行數(shù)據(jù)分析,那最后分析出來(lái)的結(jié)論多半也不正確。

因此需要有個(gè)數(shù)據(jù)產(chǎn)品來(lái)對(duì)數(shù)據(jù)進(jìn)行整合加工,而數(shù)據(jù)倉(cāng)庫(kù)就是這樣一款產(chǎn)品。

要想了解怎么搭建數(shù)據(jù)倉(cāng)庫(kù),首先需要明白數(shù)據(jù)倉(cāng)庫(kù)的作用:

存儲(chǔ)數(shù)據(jù)

校準(zhǔn)數(shù)據(jù)

整合數(shù)據(jù)

輸出數(shù)據(jù)

基于以上幾點(diǎn),需要將數(shù)據(jù)分層次管理,每一層分工合作,對(duì)數(shù)據(jù)進(jìn)行不同程度的處理,如同工廠里的流水線一般,從而確保數(shù)據(jù)的生命性、生態(tài)性。

大數(shù)據(jù)體系整體架構(gòu)

數(shù)據(jù)倉(cāng)庫(kù)并不是獨(dú)立存在的一個(gè)個(gè)體,而是與整個(gè)大數(shù)據(jù)體系融為一體的——換句話說(shuō),數(shù)據(jù)倉(cāng)庫(kù)就像人的心臟,人只有心臟而沒(méi)有其他器官是無(wú)法單獨(dú)存活下來(lái)的。

大數(shù)據(jù)體系架構(gòu)如圖所示:

來(lái)源系統(tǒng)

數(shù)據(jù)的來(lái)源系統(tǒng),可以理解為數(shù)據(jù)的收集系統(tǒng)。

如圖所示為基于電商業(yè)務(wù)下的大數(shù)據(jù)體系,因此數(shù)據(jù)大體可分為業(yè)務(wù)數(shù)據(jù)和用戶(hù)行為數(shù)據(jù),其來(lái)源系統(tǒng)更多是與電商業(yè)務(wù)相關(guān)的后端訂單、庫(kù)存等業(yè)務(wù)系統(tǒng)以及前端商城帶來(lái)的用戶(hù)行為數(shù)據(jù)。

原始數(shù)據(jù)層

顧名思義,即存放從來(lái)源系統(tǒng)過(guò)來(lái)的原始數(shù)據(jù),所謂原始數(shù)據(jù)——即未經(jīng)過(guò)任何加工處理的數(shù)據(jù)。

這一層次咋看之下有點(diǎn)多余,但實(shí)際上是有所考量的:

1)將數(shù)據(jù)倉(cāng)庫(kù)與業(yè)務(wù)系統(tǒng)分隔開(kāi)

數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù),實(shí)時(shí)性要求不高,而準(zhǔn)確性、清潔型必須較高,因此清洗的腳本繁多。如果每條數(shù)據(jù)都實(shí)時(shí)傳送到數(shù)據(jù)倉(cāng)庫(kù)的話,那腳本執(zhí)行的頻率將非常高,所占用的系統(tǒng)資源也隨之增加。

2)分擔(dān)業(yè)務(wù)系統(tǒng)的報(bào)表任務(wù)

總所周知,搭建大數(shù)據(jù)體系架構(gòu)所使用的硬件資源是相對(duì)較高的,而業(yè)務(wù)系統(tǒng)往往只是支撐業(yè)務(wù)持續(xù)開(kāi)展,從性能上往往無(wú)法支撐大數(shù)據(jù)量報(bào)表的導(dǎo)出。因此,原始數(shù)據(jù)層可以承載此項(xiàng)功能,業(yè)務(wù)系統(tǒng)數(shù)據(jù)傳輸?shù)膶?shí)時(shí)性也保證了從原始數(shù)據(jù)層導(dǎo)出的數(shù)據(jù)符合業(yè)務(wù)人員對(duì)報(bào)表實(shí)時(shí)性的需要。

數(shù)據(jù)倉(cāng)庫(kù)

一般來(lái)說(shuō),數(shù)據(jù)倉(cāng)庫(kù)可區(qū)分為三層:基礎(chǔ)數(shù)據(jù)層、主題層、模型層

基礎(chǔ)數(shù)據(jù)層

原始數(shù)據(jù)層以天為時(shí)間周期,將每天的數(shù)據(jù)傳輸?shù)綌?shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)通過(guò)ETL(抽取、轉(zhuǎn)化、加載)的方式,將數(shù)據(jù)按照設(shè)定的數(shù)據(jù)表格式存儲(chǔ)好,形成基礎(chǔ)數(shù)據(jù)層的數(shù)據(jù)。

何謂ETL呢?

ETL即:Extra、Transfer、Load——簡(jiǎn)單來(lái)說(shuō),即數(shù)據(jù)清洗。先將數(shù)據(jù)抽取出來(lái),將冗余數(shù)據(jù),錯(cuò)誤數(shù)據(jù),有歧義的數(shù)據(jù)按照既定的規(guī)則進(jìn)行刪減、填充、修改,再填充入已設(shè)定好的表結(jié)構(gòu)的數(shù)據(jù)庫(kù)表中。

舉個(gè)栗子:

從訂單系統(tǒng)過(guò)來(lái)的訂單數(shù)據(jù)上,客戶(hù)名稱(chēng)多種多樣,相同一個(gè)客戶(hù),有大寫(xiě)的名稱(chēng)、小寫(xiě)的名稱(chēng)、有些訂單甚至沒(méi)有客戶(hù)的相關(guān)信息(這當(dāng)然是業(yè)務(wù)系統(tǒng)本身的歷史遺留問(wèn)題導(dǎo)致的)。此時(shí),作為數(shù)據(jù)產(chǎn)品經(jīng)理必須要了解這些數(shù)據(jù)的“坑”,并且和對(duì)應(yīng)業(yè)務(wù)系統(tǒng)的產(chǎn)品經(jīng)理共同商討如何處理這批數(shù)據(jù),確定好清洗邏輯(例如:所有名稱(chēng)統(tǒng)一轉(zhuǎn)化為小寫(xiě),如果客戶(hù)名稱(chēng)、地址、電話號(hào)碼都是同一個(gè)的,歸為同一個(gè)客戶(hù)),程序猿們根據(jù)數(shù)據(jù)產(chǎn)品經(jīng)理的清洗規(guī)則寫(xiě)好腳本進(jìn)行清洗。

主題層

數(shù)據(jù)清洗就像打掃衛(wèi)生一樣,將不要的東西扔掉,將破舊的東西擦拭干凈,但并不代表數(shù)據(jù)是完整的。

主題層的構(gòu)建相對(duì)復(fù)雜,搭建的規(guī)則主要是看未來(lái)的需要以及產(chǎn)品經(jīng)理對(duì)業(yè)務(wù)的理解。

舉個(gè)栗子:

題主所在的公司是一家大型零售分銷(xiāo)公司,因此往往有一張訂單賣(mài)給零售商,零售商再下一張訂單給零售店,零售單再下一張訂單給終端用戶(hù)。此時(shí),每一級(jí)訂單是斷層,且來(lái)源于不同的系統(tǒng)的,因此每一級(jí)訂單的表結(jié)構(gòu)完全不同。

這樣導(dǎo)致的結(jié)果是:無(wú)法從全鏈條上看到每一個(gè)商品在渠道中的流轉(zhuǎn),也無(wú)法實(shí)時(shí)跟蹤到每個(gè)商品的具體轉(zhuǎn)化效率。所以,需要把每一級(jí)的訂單按照主題分門(mén)別類(lèi)(一級(jí)訂單、二級(jí)訂單、三級(jí)訂單),并且建立一種關(guān)聯(lián)關(guān)系,使這三者能串聯(lián)起來(lái),形成一整個(gè)渠道流程。

模型層

數(shù)據(jù)來(lái)到模型層,也就意味著他們最終要成為“炮彈”,發(fā)射到數(shù)據(jù)分析平臺(tái)了,因此模型層的最主要作用是:將主題數(shù)據(jù)組合成數(shù)據(jù)分析模型。

假設(shè)我們需要在數(shù)據(jù)分析平臺(tái)上體現(xiàn)出“不同商品在不同區(qū)域不同客戶(hù)的熱銷(xiāo)情況”,那在模型層就需要以訂單表作為最基礎(chǔ)的表,關(guān)聯(lián)上區(qū)域表、客戶(hù)表、商品表,關(guān)聯(lián)出一個(gè)以區(qū)域+商品+客戶(hù)特征維度劃分的明細(xì)數(shù)據(jù)。每個(gè)區(qū)域每個(gè)商品每個(gè)客戶(hù)對(duì)應(yīng)一行銷(xiāo)售數(shù)據(jù),根據(jù)這份數(shù)據(jù)匯總出一個(gè)按區(qū)域+商品+客戶(hù)特征的模型,輸出到數(shù)據(jù)分析平臺(tái),展示出不同區(qū)域,不同商品的客戶(hù)特征是怎樣的。

需要注意的是:模型層的數(shù)據(jù)都是呈現(xiàn)出星狀結(jié)構(gòu)和高度索引化的。

因?yàn)樵诖髷?shù)據(jù)平臺(tái)上,數(shù)據(jù)與數(shù)據(jù)之間往往是需要存在關(guān)聯(lián)的,運(yùn)營(yíng)人員看到商品在不同區(qū)域上的銷(xiāo)量分布,往往也想進(jìn)一步看到在不同區(qū)域上的商品有什么特征,客戶(hù)有什么特征,這些都需要和區(qū)域強(qiáng)關(guān)聯(lián)起來(lái)的。

數(shù)據(jù)應(yīng)用層

數(shù)據(jù)應(yīng)用層嚴(yán)格意義上不屬于大數(shù)據(jù)架構(gòu),因?yàn)樗藭?huì)涉及各式各樣的數(shù)據(jù)分析平臺(tái),還會(huì)涉及到業(yè)務(wù)系統(tǒng)。

數(shù)據(jù)反哺

上文提到過(guò),業(yè)務(wù)系統(tǒng)對(duì)于數(shù)據(jù)倉(cāng)庫(kù)而言更多是作為數(shù)據(jù)收集工具,但同時(shí)業(yè)務(wù)系統(tǒng)也存在著數(shù)據(jù)的需求,我把這樣的過(guò)程稱(chēng)為數(shù)據(jù)反哺。

往往支撐公司業(yè)務(wù)開(kāi)展下去的業(yè)務(wù)系統(tǒng)不止一個(gè),很可能是有多個(gè),而各式各樣的業(yè)務(wù)系統(tǒng)之間也需要數(shù)據(jù)交互。例如:一般電商公司會(huì)有一套前端商家平臺(tái),也會(huì)一套后端的管理平臺(tái),這兩套平臺(tái)使用的往往不是同一套SKU,因此需要將后端SKU同步到前端來(lái)進(jìn)行mapping。

那么為什么不能直接讓這兩套系統(tǒng)直接進(jìn)行數(shù)據(jù)交互呢?

因?yàn)閿?shù)據(jù)已經(jīng)不再干凈,需要數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行清洗過(guò)后,將冗余的數(shù)據(jù)去除后方可推送至前端商家平臺(tái)。

分析模型輸出

數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù),最終除了會(huì)流向業(yè)務(wù)系統(tǒng)以外,更多的會(huì)流向各大數(shù)據(jù)應(yīng)用系統(tǒng),即:數(shù)據(jù)大屏,大數(shù)據(jù)分析平臺(tái)等

此時(shí)的數(shù)據(jù),已經(jīng)過(guò)層層清洗加工、模型搭建,形成一個(gè)個(gè)炮彈,通過(guò)接口的形式推送至各大數(shù)據(jù)平臺(tái)。對(duì)于這些數(shù)據(jù)分析、數(shù)據(jù)展示平臺(tái)而言,更多的只需要考慮如何直觀展示數(shù)據(jù)即可。

總結(jié)

數(shù)據(jù)倉(cāng)庫(kù)不產(chǎn)生數(shù)據(jù),也不消費(fèi)數(shù)據(jù),如果把數(shù)據(jù)比作是水的話,可以將它理解成礦泉水廠商:負(fù)責(zé)將水抽取上來(lái)->排污->打包->運(yùn)送。說(shuō)來(lái)容易,做來(lái)難,其中辛酸與難度只有數(shù)據(jù)產(chǎn)品經(jīng)理能理解。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專(zhuān)欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車(chē)的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車(chē)技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車(chē)工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車(chē)。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車(chē) 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶(hù)希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱(chēng),數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱(chēng)"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉