數(shù)據(jù)整合第二部分,什么是數(shù)據(jù)集成體系結(jié)構(gòu)模式?
在本節(jié)中,我們將探究集成模式的數(shù)組,每個模式都是為了提供無縫集成解決方案而定制的。這些模式作為結(jié)構(gòu)化的框架,促進(jìn)了不同系統(tǒng)之間的聯(lián)系和數(shù)據(jù)交換。它們大致分為三類:
1. 實(shí)時數(shù)據(jù)集成
2. 近實(shí)時數(shù)據(jù)集成
3. 批數(shù)據(jù)集成
1.實(shí)時數(shù)據(jù)集成
在各個行業(yè),實(shí)時數(shù)據(jù)攝入是一個關(guān)鍵要素。讓我們來探究一下它的實(shí)際應(yīng)用實(shí)例:
· 社交媒體資料顯示最新的帖子、趨勢和活動。
· 智能家居使用實(shí)時數(shù)據(jù)來自動化任務(wù)。
· 銀行利用實(shí)時數(shù)據(jù)監(jiān)測交易和投資。
· 運(yùn)輸公司利用實(shí)時數(shù)據(jù)優(yōu)化運(yùn)輸路線。
· 在線零售商使用實(shí)時數(shù)據(jù)個性化購物體驗。
了解實(shí)時數(shù)據(jù)攝取機(jī)制和架構(gòu)對于為組織選擇最佳方法至關(guān)重要。
實(shí)際上,有許多實(shí)時數(shù)據(jù)集成架構(gòu)可供選擇。其中最常用的架構(gòu)包括:
1. 流線型建筑
2. 事件驅(qū)動集成架構(gòu)
3. 蘭布達(dá)建筑
4. 卡帕建筑
這些架構(gòu)都提供了其獨(dú)特的優(yōu)勢和用例,滿足了特定的需求和操作需求。
A. 基于流的數(shù)據(jù)集成架構(gòu)
在基于流的體系結(jié)構(gòu)中,數(shù)據(jù)流在到達(dá)時會不斷被吸收。像阿帕奇卡夫卡這樣的工具被用于實(shí)時數(shù)據(jù)的收集、處理和分發(fā)。
該架構(gòu)非常適合處理高速、大容量數(shù)據(jù),同時確保數(shù)據(jù)質(zhì)量和低延遲的洞察力。
以阿帕奇卡夫卡為動力的基于流程的架構(gòu)使數(shù)據(jù)處理發(fā)生了革命性的變化。它涉及到持續(xù)的數(shù)據(jù)攝取、實(shí)時收集、處理和分發(fā)。這種方法有助于實(shí)時數(shù)據(jù)處理,處理大量數(shù)據(jù),并優(yōu)先考慮數(shù)據(jù)質(zhì)量和低延遲洞察力。
下圖展示了流數(shù)據(jù)集成體系結(jié)構(gòu)中涉及的各個組件。
b. 事件驅(qū)動集成架構(gòu)
一種?事件驅(qū)動體系結(jié)構(gòu) 是一種高度可伸縮和高效的現(xiàn)代應(yīng)用程序和微型服務(wù)方法。這個體系結(jié)構(gòu)響應(yīng)系統(tǒng)中的特定事件或觸發(fā)器,在事件發(fā)生時吸收數(shù)據(jù),使系統(tǒng)能夠?qū)ψ兓鞒隹焖俜磻?yīng)。這樣可以有效地處理來自各種來源的大量數(shù)據(jù)。
C. 集成架構(gòu)
該體系結(jié)構(gòu)采用了混合方法,巧妙地融合了批處理和實(shí)時數(shù)據(jù)攝入的優(yōu)勢。它由兩個平行數(shù)據(jù)管道組成,每個管道具有不同的目的。批處理層熟練處理歷史數(shù)據(jù)的處理,而速度層快速處理實(shí)時數(shù)據(jù)。這種體系結(jié)構(gòu)設(shè)計確保低延遲的洞察力,即使在廣泛的分布式系統(tǒng)中也能保持?jǐn)?shù)據(jù)的準(zhǔn)確性和一致性。
D.發(fā)展 卡帕數(shù)據(jù)集成體系結(jié)構(gòu)
KPAPA體系結(jié)構(gòu)是為實(shí)時數(shù)據(jù)處理而專門設(shè)計的一個簡化的LDAB體系結(jié)構(gòu)。它使用一個單獨(dú)的流處理引擎,如阿帕奇弗林克或阿帕奇卡夫卡流,以管理歷史和實(shí)時數(shù)據(jù),簡化數(shù)據(jù)攝入管道。這種方法最大限度地減少復(fù)雜性和維護(hù)費(fèi)用,同時提供快速和準(zhǔn)確的見解。
2.近實(shí)時數(shù)據(jù)集成
在幾乎實(shí)時的數(shù)據(jù)集成中,數(shù)據(jù)在生成后不久即得到處理和提供,這對于需要及時更新數(shù)據(jù)的應(yīng)用程序至關(guān)重要。用于近實(shí)時數(shù)據(jù)整合的模式有幾種,其中一些突出說明如下:
A.更改數(shù)據(jù)采集-數(shù)據(jù)集成
更改數(shù)據(jù)捕捉(?疾病控制中心 )是一種捕捉源系統(tǒng)數(shù)據(jù)中發(fā)生的更改并將這些更改傳播到目標(biāo)系統(tǒng)的方法。
B.數(shù)據(jù)復(fù)制-數(shù)據(jù)集成體系結(jié)構(gòu)
通過數(shù)據(jù)復(fù)制集成架構(gòu),兩個數(shù)據(jù)庫可以無縫有效地復(fù)制基于特定需求的數(shù)據(jù)。這個架構(gòu)確保目標(biāo)數(shù)據(jù)庫與源數(shù)據(jù)庫保持同步,為兩個系統(tǒng)提供最新和一致的數(shù)據(jù)。因此,復(fù)制過程是平穩(wěn)的,可以在兩個數(shù)據(jù)庫之間進(jìn)行有效的數(shù)據(jù)傳輸和同步。
C.數(shù)據(jù)虛擬化-數(shù)據(jù)集成體系結(jié)構(gòu)
在數(shù)據(jù)虛擬化中,虛擬層將不同的數(shù)據(jù)源集成到一個統(tǒng)一視圖中。它消除了數(shù)據(jù)復(fù)制,基于數(shù)據(jù)位置性和性能等因素動態(tài)地將查詢路由到源系統(tǒng),并提供了一個統(tǒng)一的元數(shù)據(jù)層。虛擬層簡化了數(shù)據(jù)管理,提高了查詢性能,并便利了數(shù)據(jù)治理和高級集成場景。它賦予各組織有效利用其數(shù)據(jù)資產(chǎn)并釋放其全部潛力的權(quán)力。
3.批處理程序:數(shù)據(jù)集成
批數(shù)據(jù)集成涉及到在批處理中合并和傳遞消息或記錄集合,以最大限度地減少網(wǎng)絡(luò)流量和開銷。批處理在一段時間內(nèi)收集數(shù)據(jù),然后成批處理。當(dāng)處理大量數(shù)據(jù)量或處理需要大量資源時,這種方法特別有益。此外,這個模式使主數(shù)據(jù)的復(fù)制能夠為分析目的復(fù)制存儲。這一過程的優(yōu)點(diǎn)是傳播精煉結(jié)果。傳統(tǒng)的批處理數(shù)據(jù)集成模式是:
傳統(tǒng)ETL架構(gòu)- 數(shù)據(jù)集成架構(gòu)
該架構(gòu)設(shè)計堅持傳統(tǒng)的提取、轉(zhuǎn)換和負(fù)載(ETL)過程。在這個架構(gòu)中,有幾個組成部分:
· 摘錄: 數(shù)據(jù)來自各種來源系統(tǒng)。
· 轉(zhuǎn)換: 數(shù)據(jù)進(jìn)行轉(zhuǎn)換過程,將其轉(zhuǎn)換為所需的格式。
· 負(fù)荷: 然后將轉(zhuǎn)換后的數(shù)據(jù)加載到指定的目標(biāo)系統(tǒng),如數(shù)據(jù)倉庫。
遞增批處理- 數(shù)據(jù)集成架構(gòu)
這個體系結(jié)構(gòu)通過只關(guān)注來自前批處理周期的新數(shù)據(jù)或修改數(shù)據(jù)來優(yōu)化處理。與全批處理相比,這種方法提高了效率,并減輕了系統(tǒng)資源的負(fù)擔(dān)。
微批量加工- 數(shù)據(jù)集成架構(gòu)
在微批處理中,小批數(shù)據(jù)按定期、頻繁的間隔進(jìn)行處理。它實(shí)現(xiàn)了傳統(tǒng)的批處理和實(shí)時處理之間的平衡。與傳統(tǒng)的批處理技術(shù)相比,這種方法大大降低了延遲,提供了顯著的優(yōu)勢。
按規(guī)定批處理- 數(shù)據(jù)集成架構(gòu)
在這種分區(qū)批處理方法中,大量的數(shù)據(jù)集從戰(zhàn)略上分為較小的、可管理的分區(qū)。然后,這些分區(qū)可以被有效地獨(dú)立處理,經(jīng)常利用并行的力量。這種方法通過大大縮短處理時間提供了令人信服的優(yōu)勢,使其成為處理大規(guī)模數(shù)據(jù)的一個有吸引力的選擇。
結(jié)論
以下是本文的要點(diǎn):
· 在整合來自不同源系統(tǒng)的數(shù)據(jù)時,必須有一個強(qiáng)有力的數(shù)據(jù)治理框架。
· 數(shù)據(jù)集成模式的選擇應(yīng)以體積、速度和準(zhǔn)確性等用例為基礎(chǔ)。
· 數(shù)據(jù)集成風(fēng)格有三種類型,我們應(yīng)該根據(jù)不同的參數(shù)選擇合適的模型。