數(shù)據(jù)整合第二部分,什么是數(shù)據(jù)集成體系結(jié)構(gòu)模式?
掃描二維碼
隨時(shí)隨地手機(jī)看文章
在本節(jié)中,我們將探究集成模式的數(shù)組,每個(gè)模式都是為了提供無(wú)縫集成解決方案而定制的。這些模式作為結(jié)構(gòu)化的框架,促進(jìn)了不同系統(tǒng)之間的聯(lián)系和數(shù)據(jù)交換。它們大致分為三類:
1. 實(shí)時(shí)數(shù)據(jù)集成
2. 近實(shí)時(shí)數(shù)據(jù)集成
3. 批數(shù)據(jù)集成
1.實(shí)時(shí)數(shù)據(jù)集成
在各個(gè)行業(yè),實(shí)時(shí)數(shù)據(jù)攝入是一個(gè)關(guān)鍵要素。讓我們來(lái)探究一下它的實(shí)際應(yīng)用實(shí)例:
· 社交媒體資料顯示最新的帖子、趨勢(shì)和活動(dòng)。
· 智能家居使用實(shí)時(shí)數(shù)據(jù)來(lái)自動(dòng)化任務(wù)。
· 銀行利用實(shí)時(shí)數(shù)據(jù)監(jiān)測(cè)交易和投資。
· 運(yùn)輸公司利用實(shí)時(shí)數(shù)據(jù)優(yōu)化運(yùn)輸路線。
· 在線零售商使用實(shí)時(shí)數(shù)據(jù)個(gè)性化購(gòu)物體驗(yàn)。
了解實(shí)時(shí)數(shù)據(jù)攝取機(jī)制和架構(gòu)對(duì)于為組織選擇最佳方法至關(guān)重要。
實(shí)際上,有許多實(shí)時(shí)數(shù)據(jù)集成架構(gòu)可供選擇。其中最常用的架構(gòu)包括:
1. 流線型建筑
2. 事件驅(qū)動(dòng)集成架構(gòu)
3. 蘭布達(dá)建筑
4. 卡帕建筑
這些架構(gòu)都提供了其獨(dú)特的優(yōu)勢(shì)和用例,滿足了特定的需求和操作需求。
A. 基于流的數(shù)據(jù)集成架構(gòu)
在基于流的體系結(jié)構(gòu)中,數(shù)據(jù)流在到達(dá)時(shí)會(huì)不斷被吸收。像阿帕奇卡夫卡這樣的工具被用于實(shí)時(shí)數(shù)據(jù)的收集、處理和分發(fā)。
該架構(gòu)非常適合處理高速、大容量數(shù)據(jù),同時(shí)確保數(shù)據(jù)質(zhì)量和低延遲的洞察力。
以阿帕奇卡夫卡為動(dòng)力的基于流程的架構(gòu)使數(shù)據(jù)處理發(fā)生了革命性的變化。它涉及到持續(xù)的數(shù)據(jù)攝取、實(shí)時(shí)收集、處理和分發(fā)。這種方法有助于實(shí)時(shí)數(shù)據(jù)處理,處理大量數(shù)據(jù),并優(yōu)先考慮數(shù)據(jù)質(zhì)量和低延遲洞察力。
下圖展示了流數(shù)據(jù)集成體系結(jié)構(gòu)中涉及的各個(gè)組件。
b. 事件驅(qū)動(dòng)集成架構(gòu)
一種?事件驅(qū)動(dòng)體系結(jié)構(gòu) 是一種高度可伸縮和高效的現(xiàn)代應(yīng)用程序和微型服務(wù)方法。這個(gè)體系結(jié)構(gòu)響應(yīng)系統(tǒng)中的特定事件或觸發(fā)器,在事件發(fā)生時(shí)吸收數(shù)據(jù),使系統(tǒng)能夠?qū)ψ兓鞒隹焖俜磻?yīng)。這樣可以有效地處理來(lái)自各種來(lái)源的大量數(shù)據(jù)。
C. 集成架構(gòu)
該體系結(jié)構(gòu)采用了混合方法,巧妙地融合了批處理和實(shí)時(shí)數(shù)據(jù)攝入的優(yōu)勢(shì)。它由兩個(gè)平行數(shù)據(jù)管道組成,每個(gè)管道具有不同的目的。批處理層熟練處理歷史數(shù)據(jù)的處理,而速度層快速處理實(shí)時(shí)數(shù)據(jù)。這種體系結(jié)構(gòu)設(shè)計(jì)確保低延遲的洞察力,即使在廣泛的分布式系統(tǒng)中也能保持?jǐn)?shù)據(jù)的準(zhǔn)確性和一致性。
D.發(fā)展 卡帕數(shù)據(jù)集成體系結(jié)構(gòu)
KPAPA體系結(jié)構(gòu)是為實(shí)時(shí)數(shù)據(jù)處理而專門設(shè)計(jì)的一個(gè)簡(jiǎn)化的LDAB體系結(jié)構(gòu)。它使用一個(gè)單獨(dú)的流處理引擎,如阿帕奇弗林克或阿帕奇卡夫卡流,以管理歷史和實(shí)時(shí)數(shù)據(jù),簡(jiǎn)化數(shù)據(jù)攝入管道。這種方法最大限度地減少?gòu)?fù)雜性和維護(hù)費(fèi)用,同時(shí)提供快速和準(zhǔn)確的見解。
2.近實(shí)時(shí)數(shù)據(jù)集成
在幾乎實(shí)時(shí)的數(shù)據(jù)集成中,數(shù)據(jù)在生成后不久即得到處理和提供,這對(duì)于需要及時(shí)更新數(shù)據(jù)的應(yīng)用程序至關(guān)重要。用于近實(shí)時(shí)數(shù)據(jù)整合的模式有幾種,其中一些突出說(shuō)明如下:
A.更改數(shù)據(jù)采集-數(shù)據(jù)集成
更改數(shù)據(jù)捕捉(?疾病控制中心 )是一種捕捉源系統(tǒng)數(shù)據(jù)中發(fā)生的更改并將這些更改傳播到目標(biāo)系統(tǒng)的方法。
B.數(shù)據(jù)復(fù)制-數(shù)據(jù)集成體系結(jié)構(gòu)
通過(guò)數(shù)據(jù)復(fù)制集成架構(gòu),兩個(gè)數(shù)據(jù)庫(kù)可以無(wú)縫有效地復(fù)制基于特定需求的數(shù)據(jù)。這個(gè)架構(gòu)確保目標(biāo)數(shù)據(jù)庫(kù)與源數(shù)據(jù)庫(kù)保持同步,為兩個(gè)系統(tǒng)提供最新和一致的數(shù)據(jù)。因此,復(fù)制過(guò)程是平穩(wěn)的,可以在兩個(gè)數(shù)據(jù)庫(kù)之間進(jìn)行有效的數(shù)據(jù)傳輸和同步。
C.數(shù)據(jù)虛擬化-數(shù)據(jù)集成體系結(jié)構(gòu)
在數(shù)據(jù)虛擬化中,虛擬層將不同的數(shù)據(jù)源集成到一個(gè)統(tǒng)一視圖中。它消除了數(shù)據(jù)復(fù)制,基于數(shù)據(jù)位置性和性能等因素動(dòng)態(tài)地將查詢路由到源系統(tǒng),并提供了一個(gè)統(tǒng)一的元數(shù)據(jù)層。虛擬層簡(jiǎn)化了數(shù)據(jù)管理,提高了查詢性能,并便利了數(shù)據(jù)治理和高級(jí)集成場(chǎng)景。它賦予各組織有效利用其數(shù)據(jù)資產(chǎn)并釋放其全部潛力的權(quán)力。
3.批處理程序:數(shù)據(jù)集成
批數(shù)據(jù)集成涉及到在批處理中合并和傳遞消息或記錄集合,以最大限度地減少網(wǎng)絡(luò)流量和開銷。批處理在一段時(shí)間內(nèi)收集數(shù)據(jù),然后成批處理。當(dāng)處理大量數(shù)據(jù)量或處理需要大量資源時(shí),這種方法特別有益。此外,這個(gè)模式使主數(shù)據(jù)的復(fù)制能夠?yàn)榉治瞿康膹?fù)制存儲(chǔ)。這一過(guò)程的優(yōu)點(diǎn)是傳播精煉結(jié)果。傳統(tǒng)的批處理數(shù)據(jù)集成模式是:
傳統(tǒng)ETL架構(gòu)- 數(shù)據(jù)集成架構(gòu)
該架構(gòu)設(shè)計(jì)堅(jiān)持傳統(tǒng)的提取、轉(zhuǎn)換和負(fù)載(ETL)過(guò)程。在這個(gè)架構(gòu)中,有幾個(gè)組成部分:
· 摘錄: 數(shù)據(jù)來(lái)自各種來(lái)源系統(tǒng)。
· 轉(zhuǎn)換: 數(shù)據(jù)進(jìn)行轉(zhuǎn)換過(guò)程,將其轉(zhuǎn)換為所需的格式。
· 負(fù)荷: 然后將轉(zhuǎn)換后的數(shù)據(jù)加載到指定的目標(biāo)系統(tǒng),如數(shù)據(jù)倉(cāng)庫(kù)。
遞增批處理- 數(shù)據(jù)集成架構(gòu)
這個(gè)體系結(jié)構(gòu)通過(guò)只關(guān)注來(lái)自前批處理周期的新數(shù)據(jù)或修改數(shù)據(jù)來(lái)優(yōu)化處理。與全批處理相比,這種方法提高了效率,并減輕了系統(tǒng)資源的負(fù)擔(dān)。
微批量加工- 數(shù)據(jù)集成架構(gòu)
在微批處理中,小批數(shù)據(jù)按定期、頻繁的間隔進(jìn)行處理。它實(shí)現(xiàn)了傳統(tǒng)的批處理和實(shí)時(shí)處理之間的平衡。與傳統(tǒng)的批處理技術(shù)相比,這種方法大大降低了延遲,提供了顯著的優(yōu)勢(shì)。
按規(guī)定批處理- 數(shù)據(jù)集成架構(gòu)
在這種分區(qū)批處理方法中,大量的數(shù)據(jù)集從戰(zhàn)略上分為較小的、可管理的分區(qū)。然后,這些分區(qū)可以被有效地獨(dú)立處理,經(jīng)常利用并行的力量。這種方法通過(guò)大大縮短處理時(shí)間提供了令人信服的優(yōu)勢(shì),使其成為處理大規(guī)模數(shù)據(jù)的一個(gè)有吸引力的選擇。
結(jié)論
以下是本文的要點(diǎn):
· 在整合來(lái)自不同源系統(tǒng)的數(shù)據(jù)時(shí),必須有一個(gè)強(qiáng)有力的數(shù)據(jù)治理框架。
· 數(shù)據(jù)集成模式的選擇應(yīng)以體積、速度和準(zhǔn)確性等用例為基礎(chǔ)。
· 數(shù)據(jù)集成風(fēng)格有三種類型,我們應(yīng)該根據(jù)不同的參數(shù)選擇合適的模型。