數(shù)據(jù)整合第一部分,數(shù)據(jù)集成
什么是數(shù)據(jù)治理?
數(shù)據(jù)治理 是一個(gè)由具有不同角色和責(zé)任的個(gè)人協(xié)作制定的框架。該框架旨在建立有助于各組織實(shí)現(xiàn)其目標(biāo)的流程、政策、程序、標(biāo)準(zhǔn)和衡量標(biāo)準(zhǔn)。這些目標(biāo)包括為業(yè)務(wù)運(yùn)作提供可靠數(shù)據(jù)、建立問(wèn)責(zé)制和權(quán)威性、開(kāi)發(fā)評(píng)估業(yè)績(jī)的準(zhǔn)確分析方法、遵守監(jiān)管要求、保護(hù)數(shù)據(jù)、確保數(shù)據(jù)隱私以及支持?jǐn)?shù)據(jù)管理生命周期。
創(chuàng)造一個(gè)?數(shù)據(jù)治理委員會(huì) 或者指導(dǎo)委員會(huì)是整合數(shù)據(jù)治理程序和框架的第一步。一個(gè)組織的?治理框架 應(yīng)分發(fā)給所有工作人員和管理人員,使每個(gè)人都了解正在發(fā)生的變化。
成功地管理數(shù)據(jù)和分析應(yīng)用所需的基本概念。它們是:
· 注重企業(yè)價(jià)值觀和本組織的目標(biāo)
· 關(guān)于誰(shuí)負(fù)責(zé)數(shù)據(jù)和誰(shuí)負(fù)責(zé)決策的協(xié)議
· 一種強(qiáng)調(diào)模式?數(shù)據(jù)整理 和?數(shù)據(jù)血統(tǒng) 數(shù)據(jù)治理
· 透明的決策,包括道德原則
· 核心治理構(gòu)成部分包括數(shù)據(jù)安全和風(fēng)險(xiǎn)管理
· 不斷提供培訓(xùn),監(jiān)測(cè)培訓(xùn)的效果并提出反饋意見(jiàn)
· 將工作場(chǎng)所轉(zhuǎn)變?yōu)閰f(xié)作文化,利用數(shù)據(jù)治理鼓勵(lì)廣泛參與
什么是數(shù)據(jù)集成?
數(shù)據(jù)集成 是將來(lái)自多種來(lái)源的數(shù)據(jù)合并和統(tǒng)一成一種統(tǒng)一、連貫的格式,供各種用戶(hù)使用的過(guò)程,例如:業(yè)務(wù)、分析和決策目的。
數(shù)據(jù)整合進(jìn)程由四個(gè)主要關(guān)鍵組成部分組成:
1.源系統(tǒng)
數(shù)據(jù)庫(kù)、文件系統(tǒng)、物聯(lián)網(wǎng)設(shè)備、媒體大陸和云數(shù)據(jù)存儲(chǔ)等源系統(tǒng)提供了必須集成的原始信息。這些源系統(tǒng)的異質(zhì)性導(dǎo)致數(shù)據(jù)可以結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化 .
1. 數(shù)據(jù)庫(kù) :設(shè)計(jì)中央或分布式存儲(chǔ)庫(kù)是為了存儲(chǔ)、組織和管理結(jié)構(gòu)化數(shù)據(jù)。例子包括關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng),如mysql、后格SQL和甲骨文。數(shù)據(jù)通常存儲(chǔ)在具有預(yù)先定義模式的表中,以確保一致性和查詢(xún)方便。
2. 文件系統(tǒng) :在磁盤(pán)驅(qū)動(dòng)器或其他存儲(chǔ)介質(zhì)上組織和存儲(chǔ)文件和目錄的分層結(jié)構(gòu)。共同的文件系統(tǒng)包括(窗口)、(APOS)和(Linux)ext4。數(shù)據(jù)可以是任何類(lèi)型,包括結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化。
3. 物聯(lián)網(wǎng)設(shè)備 *物理裝置(傳感器、執(zhí)行器等)嵌入電子、軟件和網(wǎng)絡(luò)連接。衛(wèi)星技術(shù)設(shè)備收集、處理和傳輸數(shù)據(jù),使實(shí)時(shí)監(jiān)測(cè)和控制成為可能??蓪?duì)由移動(dòng)通信技術(shù)設(shè)備生成的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理(例如:,傳感器讀數(shù)),半結(jié)構(gòu)(如。,設(shè)備配置),或非結(jié)構(gòu)化(例如。,錄像)。
4. 媒體儲(chǔ)存庫(kù): 用于管理和存儲(chǔ)各種媒體文件的平臺(tái)或系統(tǒng)。實(shí)例包括內(nèi)容管理系統(tǒng)和數(shù)字資產(chǎn)管理系統(tǒng)。媒體存儲(chǔ)庫(kù)中的數(shù)據(jù)可以包括圖像、視頻、音頻文件和文檔。
5.云數(shù)據(jù)存儲(chǔ):提供在線(xiàn)數(shù)據(jù)按需存儲(chǔ)和管理的服務(wù)。流行的云數(shù)據(jù)存儲(chǔ)平臺(tái)包括亞馬遜S3、微軟Azure Blob存儲(chǔ)和谷歌云存儲(chǔ)。云存儲(chǔ)中的數(shù)據(jù)可以在任何地方通過(guò)互聯(lián)網(wǎng)連接進(jìn)行訪問(wèn)和處理。
2. 數(shù)據(jù)采集
數(shù)據(jù)采集包括從源系統(tǒng)中提取和收集信息。根據(jù)源系統(tǒng)的性質(zhì)和具體要求,可以采用不同的方法。這些方法包括批處理過(guò)程、利用ETL(提取、轉(zhuǎn)換、加載)、ELT(提取、加載、轉(zhuǎn)換)技術(shù)、API(應(yīng)用程序編程接口)、流處理、虛擬化、數(shù)據(jù)復(fù)制和數(shù)據(jù)共享等技術(shù)的流處理方法。
1. 批量處理 :批處理程序通常用于結(jié)構(gòu)化數(shù)據(jù)。在這種方法中,數(shù)據(jù)是在一段時(shí)間內(nèi)積累并大量處理的。這種方法有利于大型數(shù)據(jù)集,并確保數(shù)據(jù)的一致性和完整性。
2. 應(yīng)用程序編程接口 ::API是應(yīng)用程序和數(shù)據(jù)源之間的通信渠道。它們?cè)试S對(duì)數(shù)據(jù)的控制和安全訪問(wèn)。API通常用于與第三方系統(tǒng)集成并支持?jǐn)?shù)據(jù)交換。
3. S 特雷明 *流處理涉及連續(xù)的數(shù)據(jù)攝取和處理。它通常用于實(shí)時(shí)數(shù)據(jù)源,如傳感器網(wǎng)絡(luò)、社交媒體和金融市場(chǎng)。流媒體技術(shù)能夠根據(jù)最新數(shù)據(jù)進(jìn)行即時(shí)分析和決策。
4. 虛擬化 :數(shù)據(jù)虛擬化提供數(shù)據(jù)的邏輯視圖,而無(wú)需實(shí)際移動(dòng)或復(fù)制。它能夠無(wú)縫訪問(wèn)來(lái)自多個(gè)來(lái)源的數(shù)據(jù),無(wú)論其位置或格式如何。虛擬化通常用于數(shù)據(jù)集成和減少數(shù)據(jù)倉(cāng)。
5. 數(shù)據(jù)復(fù)制: 數(shù)據(jù)復(fù)制涉及將數(shù)據(jù)從一個(gè)系統(tǒng)復(fù)制到另一個(gè)系統(tǒng)。它提高了數(shù)據(jù)的可用性和冗余性。復(fù)制可以是同步的,即實(shí)時(shí)復(fù)制數(shù)據(jù),也可以是異步的,即定期復(fù)制數(shù)據(jù)。
6. 數(shù)據(jù)共享: 數(shù)據(jù)共享涉及允許授權(quán)用戶(hù)或系統(tǒng)訪問(wèn)數(shù)據(jù)。它促進(jìn)協(xié)作,使人們能夠從多個(gè)角度提出見(jiàn)解,并支持知情決策。數(shù)據(jù)共享可以通過(guò)數(shù)據(jù)門(mén)戶(hù)、數(shù)據(jù)湖和聯(lián)合數(shù)據(jù)庫(kù)等各種機(jī)制實(shí)現(xiàn)。
3.數(shù)據(jù)存儲(chǔ)
在數(shù)據(jù)采集之后,將數(shù)據(jù)存儲(chǔ)在存儲(chǔ)庫(kù)中對(duì)于有效的訪問(wèn)和管理至關(guān)重要。各種各樣的?數(shù)據(jù)存儲(chǔ) 可根據(jù)具體需要選擇各種選擇。這些備選辦法包括:
1. 數(shù)據(jù)庫(kù)管理系統(tǒng) 關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)是設(shè)計(jì)用來(lái)組織、存儲(chǔ)和檢索結(jié)構(gòu)化格式數(shù)據(jù)的軟件系統(tǒng)。這些系統(tǒng)提供了數(shù)據(jù)安全、數(shù)據(jù)完整性和事務(wù)管理等先進(jìn)功能。受歡迎的rbm的例子包括mysql、甲骨文和后格列SQL。Nosql數(shù)據(jù)庫(kù),如蒙戈德數(shù)據(jù)庫(kù)和卡珊德拉數(shù)據(jù)庫(kù),旨在存儲(chǔ)和管理半結(jié)構(gòu)化數(shù)據(jù)。它們提供了靈活性和可伸縮性,使它們適合處理大量數(shù)據(jù),這些數(shù)據(jù)可能需要更好地適應(yīng)于關(guān)系模型。
2. 云存儲(chǔ)服務(wù) :云存儲(chǔ)服務(wù)提供可擴(kuò)展和成本效益高的云存儲(chǔ)解決方案。它們提供從因特網(wǎng)連接的任何地方按需獲取數(shù)據(jù)的機(jī)會(huì)。受歡迎的云存儲(chǔ)服務(wù)包括亞馬遜S3、微軟AZERE存儲(chǔ)和谷歌云存儲(chǔ)。
3. 數(shù)據(jù)湖 :數(shù)據(jù)湖是原始和非結(jié)構(gòu)化數(shù)據(jù)的大型存儲(chǔ)庫(kù),其格式為本地格式。它們經(jīng)常被用于大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)。數(shù)據(jù)池可以使用HDAOOP分布式文件系統(tǒng)或云存儲(chǔ)服務(wù)實(shí)現(xiàn)。
4. 三角洲湖泊 :三角洲湖是一種支持酸性事務(wù)和架構(gòu)演化的數(shù)據(jù)湖。它們?yōu)閿?shù)據(jù)工程和分析工作量提供了一個(gè)可靠和可伸縮的數(shù)據(jù)存儲(chǔ)解決方案。
5. 云數(shù)據(jù)倉(cāng)庫(kù) 云數(shù)據(jù)倉(cāng)庫(kù)是為商業(yè)智能和分析設(shè)計(jì)的云基數(shù)據(jù)存儲(chǔ)解決方案。它們?yōu)榇罅拷Y(jié)構(gòu)化數(shù)據(jù)提供快速查詢(xún)性能和可伸縮性。例如亞馬遜紅移,谷歌大查詢(xún)和雪花。
6. 大數(shù)據(jù)文件 大數(shù)據(jù)文件是存儲(chǔ)在單個(gè)文件中的大量數(shù)據(jù)集合。它們經(jīng)常用于數(shù)據(jù)分析和處理任務(wù)。常見(jiàn)的大數(shù)據(jù)文件格式包括拼花,阿帕奇阿沃,阿帕奇奧克。
7. 房地內(nèi)儲(chǔ)存域網(wǎng)(SAN) :SAS是專(zhuān)為數(shù)據(jù)存儲(chǔ)設(shè)計(jì)的專(zhuān)用高速網(wǎng)絡(luò)。它們提供快速的數(shù)據(jù)傳輸速度,并為多個(gè)服務(wù)器提供集中存儲(chǔ)。SAN通常用于具有大存儲(chǔ)需求的企業(yè)環(huán)境。
8. 網(wǎng)絡(luò)附加存儲(chǔ)器 :NAS設(shè)備是指連接到網(wǎng)絡(luò)并為多個(gè)客戶(hù)機(jī)提供共享存儲(chǔ)空間的文件級(jí)存儲(chǔ)系統(tǒng)。它們通常用于中小型企業(yè),便于從各種設(shè)備獲取數(shù)據(jù)。
選擇正確的數(shù)據(jù)存儲(chǔ)選項(xiàng)取決于數(shù)據(jù)大小、數(shù)據(jù)類(lèi)型、性能要求、安全需求和成本考慮等因素。各組織可結(jié)合使用這些存儲(chǔ)選項(xiàng)來(lái)滿(mǎn)足其具體的數(shù)據(jù)管理需求。
5. 消費(fèi)
這是數(shù)據(jù)集成生命周期的最后階段,集成數(shù)據(jù)由各種應(yīng)用程序、數(shù)據(jù)分析員、業(yè)務(wù)分析員、數(shù)據(jù)科學(xué)家、AI/ML模型和業(yè)務(wù)流程使用。數(shù)據(jù)可以各種形式和通過(guò)各種渠道消費(fèi),包括:
1. 業(yè)務(wù)系統(tǒng) :綜合數(shù)據(jù)可由使用API(應(yīng)用程序編程接口)的操作系統(tǒng)使用,以支持日常業(yè)務(wù)和決策。例如,客戶(hù)關(guān)系管理系統(tǒng)可以使用客戶(hù)互動(dòng)、采購(gòu)和偏好的數(shù)據(jù),以提供個(gè)性化的體驗(yàn)和有針對(duì)性的營(yíng)銷(xiāo)活動(dòng)。
2. 分析學(xué) :綜合數(shù)據(jù)可用于分析應(yīng)用和數(shù)據(jù)勘探、分析和報(bào)告工具。數(shù)據(jù)分析師和業(yè)務(wù)分析師使用這些工具來(lái)識(shí)別趨勢(shì)、模式和數(shù)據(jù)的真知灼見(jiàn),這有助于為業(yè)務(wù)決策和戰(zhàn)略提供信息。
3. 數(shù)據(jù)共享 :綜合數(shù)據(jù)可通過(guò)數(shù)據(jù)共享平臺(tái)和機(jī)制與合作伙伴、供應(yīng)商和監(jiān)管機(jī)構(gòu)等外部利益攸關(guān)方共享。數(shù)據(jù)共享使各組織能夠協(xié)作和交流信息,從而改進(jìn)決策和創(chuàng)新。
4. 卡夫卡 卡夫卡是一個(gè)分布式流處理平臺(tái),可用于消耗和處理實(shí)時(shí)數(shù)據(jù)。集成數(shù)據(jù)可以流到卡夫卡,在那里可以被需要實(shí)時(shí)數(shù)據(jù)處理能力的應(yīng)用程序和服務(wù)使用。
5. AI/ML :人工智能和機(jī)器學(xué)習(xí)模型可以使用集成數(shù)據(jù)進(jìn)行訓(xùn)練和推理。AI/ML模型利用數(shù)據(jù)來(lái)學(xué)習(xí)模式和做出預(yù)測(cè),這些模型可用于圖像識(shí)別、自然語(yǔ)言處理和欺詐檢測(cè)等任務(wù)。
綜合數(shù)據(jù)的使用使企業(yè)能夠做出明智的決定,優(yōu)化業(yè)務(wù),改善客戶(hù)體驗(yàn),推動(dòng)創(chuàng)新。通過(guò)提供統(tǒng)一一致的數(shù)據(jù)視圖,各組織可以釋放其數(shù)據(jù)資產(chǎn)的全部潛力,并獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。