當(dāng)前位置:首頁(yè) > 物聯(lián)網(wǎng) > 智能應(yīng)用
[導(dǎo)讀]?大數(shù)據(jù)分析是一個(gè)很重要的功能,但是純粹的數(shù)據(jù)量被消化、處理和存儲(chǔ)會(huì)很快變成一個(gè)財(cái)政負(fù)擔(dān)。運(yùn)行大數(shù)據(jù)平臺(tái)、每秒處理數(shù)百萬(wàn)個(gè)事件的組織面臨著一個(gè)持續(xù)的挑戰(zhàn):平衡對(duì)穩(wěn)健數(shù)據(jù)管理的需求和成本效益。

大數(shù)據(jù)分析是一個(gè)很重要的功能,但是純粹的數(shù)據(jù)量被消化、處理和存儲(chǔ)會(huì)很快變成一個(gè)財(cái)政負(fù)擔(dān)。運(yùn)行大數(shù)據(jù)平臺(tái)、每秒處理數(shù)百萬(wàn)個(gè)事件的組織面臨著一個(gè)持續(xù)的挑戰(zhàn):平衡對(duì)穩(wěn)健數(shù)據(jù)管理的需求和成本效益。

本文以通用大數(shù)據(jù)平臺(tái)為例,通過(guò)不同的策略有條不紊地檢查和控制成本。

端到端大數(shù)據(jù)平臺(tái)組件

一個(gè)端到端的大數(shù)據(jù)平臺(tái)簡(jiǎn)化了數(shù)據(jù)的過(guò)程,從原始格式到可行的見(jiàn)解。它由幾個(gè)關(guān)鍵組件組成,這些組件可以一起有效地管理整個(gè)數(shù)據(jù)生命周期。

· 數(shù)據(jù)攝取層: 這是一個(gè)切入點(diǎn),無(wú)縫地從各種來(lái)源獲取數(shù)據(jù),無(wú)論其格式如何(結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化)。它可以過(guò)濾掉不相關(guān)的數(shù)據(jù),以提高效率,并將其轉(zhuǎn)換為一致的、定義明確的結(jié)構(gòu)(模式),以進(jìn)行更好的分析。

· 低延遲分析層: 在這里,實(shí)時(shí)或近實(shí)時(shí)處理處于中心階段。這一層對(duì)于需要立即采取行動(dòng)的應(yīng)用程序至關(guān)重要,例如分析可疑活動(dòng)交易的欺詐檢測(cè)系統(tǒng)。

· 臨時(shí)搜索和索引: 這一層授權(quán)靈活地探索您的數(shù)據(jù)。它創(chuàng)建可搜索的索引,使用戶(hù)能夠進(jìn)行快速和有針對(duì)性的搜索,以滿(mǎn)足預(yù)期和未預(yù)見(jiàn)的分析需求。

· 儲(chǔ)存層: 平臺(tái)提供適合不同使用情況的存儲(chǔ)解決方案:

o 短期儲(chǔ)存: 該層存儲(chǔ)了數(shù)據(jù)科學(xué)項(xiàng)目、調(diào)查和模型開(kāi)發(fā)或執(zhí)行中常見(jiàn)的批處理任務(wù)的數(shù)據(jù)。

o 長(zhǎng)期儲(chǔ)存: 這種層存儲(chǔ)了較長(zhǎng)時(shí)間的數(shù)據(jù),而檢索的頻率較低。對(duì)于審計(jì)目的或歷史分析來(lái)說(shuō),它是最理想的,因?yàn)殚L(zhǎng)期的可訪問(wèn)性是至關(guān)重要的。

攝取層的優(yōu)先攝取效率

計(jì)算機(jī)科學(xué)的核心原則,不僅僅是大數(shù)據(jù),是在開(kāi)發(fā)生命周期的早期解決問(wèn)題。單元測(cè)試完美地證明了這一點(diǎn),因?yàn)榧霸绮蹲藉e(cuò)誤是成本效益更高的。同樣的邏輯也適用于數(shù)據(jù)的攝取:盡快過(guò)濾掉不必要的數(shù)據(jù),最大限度地提高效率。通過(guò)將資源集中在具有潛在業(yè)務(wù)價(jià)值的數(shù)據(jù)上,可以最大限度地減少浪費(fèi)。

另一個(gè)優(yōu)化策略是數(shù)據(jù)正?;?。在攝入過(guò)程中將數(shù)據(jù)轉(zhuǎn)換為定義明確的模式(結(jié)構(gòu))提供了顯著的優(yōu)勢(shì)。這種前期處理減少了數(shù)據(jù)平臺(tái)中后續(xù)組件的解析負(fù)擔(dān),使它們能夠?qū)W⒂诤诵娜蝿?wù)。

低延遲的計(jì)算層雖然還不普遍,但對(duì)愿意投資的組織來(lái)說(shuō)卻有很大的優(yōu)勢(shì)。通過(guò)利用現(xiàn)代流技術(shù),這些層可以大大降低處理成本,并以閃電般的速度產(chǎn)生洞察力。這種實(shí)時(shí)能力使企業(yè)能夠處理欺詐偵查、安全等關(guān)鍵用途案件?事件應(yīng)對(duì) ,以及以極具成本效益的方式處理通知書(shū)。

優(yōu)化對(duì)成本和效率的特設(shè)搜索

雖然臨時(shí)搜索提供了靈活性,但由于索引、復(fù)制和處理查詢(xún)所需的資源,它可能成為一個(gè)重要的成本因素。以下是優(yōu)化特設(shè)搜索和簡(jiǎn)化數(shù)據(jù)管理的戰(zhàn)略:

· 分析搜尋模式: 通過(guò)仔細(xì)檢查用戶(hù)查詢(xún),無(wú)論是臨時(shí)的還是定期的保存的搜索,您都可以確定向臨時(shí)搜索工具輸入數(shù)據(jù)的機(jī)會(huì)。這可能涉及過(guò)濾不相關(guān)的數(shù)據(jù)或預(yù)先處理數(shù)據(jù),以提高搜索效率。

· 利用低延遲分析: 審查計(jì)劃保存的搜索可以揭示將它們遷移到低延遲分析層的機(jī)會(huì)。這對(duì)于需要實(shí)時(shí)洞察力的搜索或涉及高計(jì)算成本的搜索特別有利,例如正則表達(dá)式(Regex)或子字符串搜索。通過(guò)在低延遲層中處理這些數(shù)據(jù),您可以釋放臨時(shí)搜索系統(tǒng)中的資源,并有可能降低總體成本。

· 為提高效率而規(guī)范化: 分析使用模式,以確定數(shù)據(jù)攝入過(guò)程中的正常化機(jī)會(huì)。在正常化過(guò)程中,提前提取相關(guān)數(shù)據(jù)可以顯著降低復(fù)雜搜索(如Regex或子字符串搜索)的相關(guān)計(jì)算成本。

優(yōu)化數(shù)據(jù)存儲(chǔ)

存儲(chǔ)數(shù)據(jù)所涉及的費(fèi)用與需要存儲(chǔ)的數(shù)據(jù)數(shù)量和數(shù)據(jù)的使用成正比。云計(jì)算提供者根據(jù)數(shù)據(jù)的大小收費(fèi),然后在計(jì)算、網(wǎng)絡(luò)和傳輸中需要額外的費(fèi)用來(lái)執(zhí)行數(shù)據(jù)上的任何計(jì)算。有兩種簡(jiǎn)單的優(yōu)化方法?儲(chǔ)藏室 費(fèi)用:

了解您的數(shù)據(jù)使用頻率

實(shí)現(xiàn)成本優(yōu)化的第一步是明確了解您的數(shù)據(jù)環(huán)境。這包括根據(jù)訪問(wèn)頻率對(duì)數(shù)據(jù)進(jìn)行分類(lèi):

· 熱數(shù)據(jù): 經(jīng)常訪問(wèn)對(duì)實(shí)時(shí)分析和決策至關(guān)重要的數(shù)據(jù)。實(shí)例包括流式傳感器數(shù)據(jù)、用戶(hù)活動(dòng)日志和財(cái)務(wù)事務(wù)。

· 熱數(shù)據(jù): 數(shù)據(jù)定期訪問(wèn),但不是實(shí)時(shí)的。這可能包括歷史日志、客戶(hù)數(shù)據(jù)和點(diǎn)擊流數(shù)據(jù)。

· 冷數(shù)據(jù): 很少訪問(wèn)具有長(zhǎng)期保留要求的數(shù)據(jù)。這可能包括歷史備份、合規(guī)檔案和來(lái)自不活動(dòng)項(xiàng)目的日志數(shù)據(jù)。

通過(guò)對(duì)數(shù)據(jù)進(jìn)行分類(lèi),您可以定制其存儲(chǔ)策略。熱數(shù)據(jù)需要高性能的存儲(chǔ),如固態(tài)驅(qū)動(dòng)器(SSD),以便快速檢索。溫暖數(shù)據(jù)可以保存在更便宜的硬盤(pán)驅(qū)動(dòng)器(HDDS)上,而冷數(shù)據(jù)最適合于成本效益高的對(duì)象存儲(chǔ)解決方案。

數(shù)據(jù)生命周期管理

數(shù)據(jù)積累得很快,如果沒(méi)有適當(dāng)?shù)墓芾?就會(huì)導(dǎo)致存儲(chǔ)膨脹和不必要的成本。實(shí)現(xiàn)?數(shù)據(jù)生命周期管理 自動(dòng)化數(shù)據(jù)移動(dòng)和刪除的政策。這些政策可界定為:

· 數(shù)據(jù)保留期: 根據(jù)監(jiān)管和業(yè)務(wù)要求,設(shè)定存儲(chǔ)不同數(shù)據(jù)類(lèi)型的具體時(shí)限。超過(guò)這些期間的舊數(shù)據(jù)可以歸檔或刪除。

· 數(shù)據(jù)質(zhì)量檢查: 自動(dòng)檢查數(shù)據(jù)的完整性和一致性.識(shí)別并刪除重復(fù)數(shù)據(jù)或錯(cuò)誤數(shù)據(jù),以?xún)?yōu)化存儲(chǔ)利用率.

· 數(shù)據(jù)分類(lèi): 隨著數(shù)據(jù)年齡的增加,根據(jù)您的數(shù)據(jù)分類(lèi),將其自動(dòng)移動(dòng)到成本較低的存儲(chǔ)層。這確保了熱數(shù)據(jù)隨時(shí)可用,同時(shí)保持整體存儲(chǔ)成本效益。

優(yōu)化架構(gòu)促進(jìn)效率

您的大數(shù)據(jù)平臺(tái)的架構(gòu)對(duì)其整體成本有重大影響。以下是如何優(yōu)化資源利用:

· 正確評(píng)估實(shí)例: 分析處理作業(yè)的資源使用模式.不要成為過(guò)度配置的犧牲品;根據(jù)實(shí)際的工作量需求,將實(shí)例(虛擬機(jī))向上或向下擴(kuò)展。這可以通過(guò)云計(jì)算提供者提供的自動(dòng)規(guī)?;δ軄?lái)實(shí)現(xiàn)。

· 云成本管理工具: 利用你的云平臺(tái)提供的成本管理工具。這些工具提供了對(duì)資源利用和成本細(xì)目的詳細(xì)了解,并確定了潛在的節(jié)約。探索以下特征:

o 保留實(shí)例: 在承諾使用期間以折扣率購(gòu)買(mǎi)計(jì)算機(jī)資源。這可能有利于可預(yù)測(cè)的工作量。

o 局部實(shí)例: 利用未使用的云容量,降低需求價(jià)格。這對(duì)于具有靈活調(diào)度需求的批處理作業(yè)是理想的。

o 安排工作: 在云資源價(jià)格通常較低的情況下,在非高峰時(shí)間安排資源密集型數(shù)據(jù)處理任務(wù)。

監(jiān)測(cè)和報(bào)告費(fèi)用

成本優(yōu)化是一個(gè)持續(xù)的過(guò)程。為了保持成本效益,實(shí)施健全的成本監(jiān)測(cè)和報(bào)告做法:

· 費(fèi)用 :開(kāi)發(fā)儀表板,提供不同資源類(lèi)別的實(shí)時(shí)和歷史成本洞察力??梢暬杀沮厔?shì)有助于積極主動(dòng)地確定潛在的成本增加。將成本度量作為業(yè)務(wù)度量,需要對(duì)趨勢(shì)變化進(jìn)行監(jiān)測(cè),以便在成本成為問(wèn)題之前采取行動(dòng)。

· 費(fèi)用歸屬 根據(jù)具體部門(mén)和項(xiàng)目的數(shù)據(jù)使用情況分配費(fèi)用。這有助于提高內(nèi)部利益攸關(guān)方的成本意識(shí),并鼓勵(lì)負(fù)責(zé)任的數(shù)據(jù)管理做法。

結(jié)論:實(shí)現(xiàn)成本效益高的大數(shù)據(jù)管理之路

優(yōu)化大數(shù)據(jù)平臺(tái)的成本是一個(gè)持續(xù)的過(guò)程。通過(guò)實(shí)施上述戰(zhàn)略,您可以在不損害數(shù)據(jù)生態(tài)系統(tǒng)的功能和價(jià)值的情況下節(jié)省大量費(fèi)用。最有效的方法將取決于您的特定數(shù)據(jù)環(huán)境、工作負(fù)載和云環(huán)境。定期監(jiān)控、整個(gè)開(kāi)發(fā)生命周期的成本意識(shí)以及持續(xù)改進(jìn)的承諾是確保大數(shù)據(jù)平臺(tái)提供高效率和高成本效益的見(jiàn)解的關(guān)鍵。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專(zhuān)欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車(chē)的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車(chē)技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車(chē)工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車(chē)。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車(chē) 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶(hù)希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱(chēng),數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱(chēng)"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉