當(dāng)前位置:首頁(yè) > 物聯(lián)網(wǎng) > 智能應(yīng)用
[導(dǎo)讀]去年,我們目睹了大型AI的爆炸性崛起,產(chǎn)生了全球性的熱情,使人工智能看起來(lái)像是所有問題的解決方案。今年,隨著大肆宣傳的減弱,大型模型進(jìn)入了更深層次,目的是重塑各個(gè)行業(yè)的基本邏輯。在大數(shù)據(jù)處理領(lǐng)域,大型模型與傳統(tǒng)ETL(提取、轉(zhuǎn)換、負(fù)載)流程之間的沖突引發(fā)了新的爭(zhēng)論。

去年,我們目睹了大型AI的爆炸性崛起,產(chǎn)生了全球性的熱情,使人工智能看起來(lái)像是所有問題的解決方案。今年,隨著大肆宣傳的減弱,大型模型進(jìn)入了更深層次,目的是重塑各個(gè)行業(yè)的基本邏輯。在大數(shù)據(jù)處理領(lǐng)域,大型模型與傳統(tǒng)ETL(提取、轉(zhuǎn)換、負(fù)載)流程之間的沖突引發(fā)了新的爭(zhēng)論。

大型模型 特點(diǎn)是"transformer",而ETL依靠的是"轉(zhuǎn)換"過程--類似的名稱代表了截然不同的范式。一些聲音大膽預(yù)言: "ETL將在未來(lái)完全被替換,因?yàn)榇笮湍P涂梢蕴幚硭袛?shù)據(jù)!" 這是否意味著幾十年來(lái)支持?jǐn)?shù)據(jù)處理的ETL框架的結(jié)束?還是僅僅是一個(gè)被誤解的預(yù)言?這場(chǎng)沖突的背后是對(duì)科技未來(lái)的更深刻的思考。

大數(shù)據(jù)處理(ETL)會(huì)消失嗎?

隨著大型模型的迅速發(fā)展,一些人開始推測(cè)傳統(tǒng)的大數(shù)據(jù)處理方法,包括ETL,是否仍然有必要。無(wú)可否認(rèn),能夠自主學(xué)習(xí)規(guī)則并從大量數(shù)據(jù)集中發(fā)現(xiàn)模式的大型模型給人留下了深刻印象。不過,我的答案很明確: 他不會(huì)消失的。 大型模型仍未能應(yīng)對(duì)若干核心數(shù)據(jù)挑戰(zhàn):

1. 效率問題

盡管大型模型在特定任務(wù)中表現(xiàn)出色,但卻要付出巨大的計(jì)算成本。訓(xùn)練大型transformer模型可能需要數(shù)周時(shí)間,耗費(fèi)大量能源和財(cái)政資源。相比之下,ETL依賴于預(yù)先定義的規(guī)則和邏輯,是高效的,資源輕,擅長(zhǎng)處理結(jié)構(gòu)化數(shù)據(jù)。

對(duì)于日常企業(yè)數(shù)據(jù)任務(wù),許多操作仍然是由規(guī)則驅(qū)動(dòng)的,例如:

· 數(shù)據(jù)清理 :使用明確的規(guī)則或正則表達(dá)式消除異常。

· 格式轉(zhuǎn)換 *使格式標(biāo)準(zhǔn)化,以便利數(shù)據(jù)傳輸和跨系統(tǒng)整合。

· 集合和統(tǒng)計(jì) :每日、每周或每月分類、聚合和計(jì)算數(shù)據(jù)。

這些任務(wù)可以由ETL工具快速處理,而不需要大型模型的復(fù)雜推理能力。

2. 自然語(yǔ)言含糊不清

大型模型在?自然語(yǔ)言處理 但也暴露了固有的挑戰(zhàn)--人類語(yǔ)言的含糊和含糊。例如:

· 單個(gè)輸入查詢可能會(huì)根據(jù)上下文產(chǎn)生不同的解釋,無(wú)法保證準(zhǔn)確性。

· 數(shù)據(jù)質(zhì)量的差異可能導(dǎo)致模型產(chǎn)生與實(shí)際需求不一致的結(jié)果。

相反,ETL是確定性的,根據(jù)預(yù)先定義的規(guī)則處理數(shù)據(jù),以產(chǎn)生可預(yù)測(cè)的、標(biāo)準(zhǔn)化的輸出。在金融和醫(yī)療等高需求領(lǐng)域,ETL的可靠性和精確性仍然是至關(guān)重要的優(yōu)勢(shì)。

3. 強(qiáng)適應(yīng)結(jié)構(gòu)化數(shù)據(jù)

大型模型善于從非結(jié)構(gòu)化數(shù)據(jù)中提取見解(例如:,文本,圖像,視頻),但經(jīng)常與結(jié)構(gòu)化數(shù)據(jù)任務(wù)斗爭(zhēng)。例如:

· 傳統(tǒng)的ETL有效地處理關(guān)系數(shù)據(jù)庫(kù),處理連接和組BYS等復(fù)雜的操作。

· 大型模型要求數(shù)據(jù)在處理之前轉(zhuǎn)換成特定的格式,從而引入了冗余和延遲。

在結(jié)構(gòu)性數(shù)據(jù)主導(dǎo)的情況下(例如:表,JSON),ETL仍然是最佳選擇。

4. 解釋和順從

大型模型常被稱為"黑匣子"。"即使數(shù)據(jù)處理工作完成,其內(nèi)部工作和決策機(jī)制仍不透明:

· 無(wú)法解釋的結(jié)果 :在金融和醫(yī)療等監(jiān)管行業(yè),大型模型的預(yù)測(cè)可能因缺乏透明度而無(wú)法使用。

· 遵守方面的挑戰(zhàn) :許多行業(yè)需要對(duì)數(shù)據(jù)流和處理邏輯進(jìn)行全面審計(jì)。大型模型及其復(fù)雜的數(shù)據(jù)管道和決策機(jī)制構(gòu)成了重大的審計(jì)挑戰(zhàn)。

相比之下,ECL提供了高度透明的流程,記錄了每一個(gè)數(shù)據(jù)處理步驟并進(jìn)行了審計(jì),確保遵守公司和行業(yè)標(biāo)準(zhǔn)。

5. 數(shù)據(jù)質(zhì)量和輸入標(biāo)準(zhǔn)化

大型模型對(duì)數(shù)據(jù)質(zhì)量高度敏感。噪音、異?;蚍菢?biāo)準(zhǔn)化投入會(huì)嚴(yán)重影響其性能:

· 數(shù)據(jù)噪音 :大型模型無(wú)法自動(dòng)識(shí)別錯(cuò)誤數(shù)據(jù),可能將其用作"學(xué)習(xí)材料",并產(chǎn)生有偏見的預(yù)測(cè)。

· 缺乏標(biāo)準(zhǔn)化 :將未經(jīng)清理的原始數(shù)據(jù)輸入大型模型可能會(huì)導(dǎo)致不一致和值缺失,這就需要像ETL這樣的預(yù)處理工具。

ECL確保數(shù)據(jù)在輸入大型模型之前得到清理、復(fù)制和標(biāo)準(zhǔn)化,保持高數(shù)據(jù)質(zhì)量。

盡管大型模型在許多領(lǐng)域都很出色,但它們的復(fù)雜性、對(duì)高質(zhì)量數(shù)據(jù)的依賴、硬件的需求以及實(shí)際的局限性,確保了它們不能完全取代ETL。ETL作為一種確定性、高效和透明的工具,將繼續(xù)與大型模型共存,為數(shù)據(jù)處理提供雙重保障。

共同國(guó)家小組GPU:與ETL平行的。大型模型

雖然ETL無(wú)法替換,但大型模型在數(shù)據(jù)處理中的興起是一個(gè)必然趨勢(shì)。幾十年來(lái),計(jì)算機(jī)系統(tǒng)都以CIP為中心,其他組件都被認(rèn)為是外圍設(shè)備。GPS主要用于游戲,但今天, 數(shù)據(jù)處理依賴于CPU和GPS的協(xié)同作用。 這種范式的轉(zhuǎn)變反映了英特爾和英偉達(dá)公司股票趨勢(shì)所反映的更廣泛的變化。

從單中心到多中心計(jì)算

歷史上,數(shù)據(jù)處理架構(gòu)從"以CIP為中心"演變?yōu)?CPU+GPU(甚至NPU)協(xié)作。"由于計(jì)算性能要求的變化,這種轉(zhuǎn)變對(duì)數(shù)據(jù)處理工具的選擇產(chǎn)生了深刻影響。

在以CIP為中心的時(shí)代,早期ETL流程嚴(yán)重依賴CPU邏輯進(jìn)行數(shù)據(jù)清理、格式化和聚合等操作。這些任務(wù)非常適合CPU的順序處理能力。

然而,復(fù)雜數(shù)據(jù)格式(音頻、視頻、文本)的上升和指數(shù)存儲(chǔ)的增長(zhǎng)揭示了CPU能力的局限性。GPS擁有無(wú)與倫比的并行處理能力,此后在數(shù)據(jù)密集型任務(wù)中占據(jù)了中心地位,比如培訓(xùn)大型transformer模型。

從傳統(tǒng)ETL到大型模型

傳統(tǒng)ETL流程,優(yōu)化為"以CIP為中心"的計(jì)算,擅長(zhǎng)處理基于規(guī)則的結(jié)構(gòu)化數(shù)據(jù)任務(wù)。實(shí)例包括:

· 數(shù)據(jù)驗(yàn)證和清理。

· 格式標(biāo)準(zhǔn)化。

· 集合和報(bào)告。

相比之下,大型模型則需要GPU功率來(lái)進(jìn)行高尺寸矩陣計(jì)算和大規(guī)模參數(shù)優(yōu)化:

· 預(yù)處理:實(shí)時(shí)標(biāo)準(zhǔn)化和數(shù)據(jù)分割。

· 模型培訓(xùn):涉及浮點(diǎn)操作的繁重計(jì)算機(jī)任務(wù)。

· 輸入服務(wù):針對(duì)低延遲和高吞吐量的優(yōu)化批處理。

這反映了一種轉(zhuǎn)變 神經(jīng)推理的邏輯計(jì)算 擴(kuò)大數(shù)據(jù)處理,包括 推理和知識(shí)提取。

為大型模型準(zhǔn)備新一代ETL架構(gòu)

大型模型的興起凸顯了傳統(tǒng)數(shù)據(jù)處理效率低下的問題,這就需要一個(gè)更先進(jìn)、更統(tǒng)一的體系結(jié)構(gòu)。

當(dāng)前數(shù)據(jù)處理中的痛苦點(diǎn)

1. 復(fù)雜的 , 支離破碎的過程 :數(shù)據(jù)清理、注釋和預(yù)處理仍然是高度手動(dòng)和孤立的。

2. 可重用性低 :團(tuán)隊(duì)經(jīng)常重新創(chuàng)建數(shù)據(jù)管道,導(dǎo)致效率低下。

3. 質(zhì)量不一致 :缺乏標(biāo)準(zhǔn)化工具導(dǎo)致數(shù)據(jù)質(zhì)量不同。

4. 高成本 :每個(gè)團(tuán)隊(duì)的單獨(dú)開發(fā)和維護(hù)增加了成本。

解決方案:Ai增強(qiáng)ETL工具

未來(lái)的ETL工具將嵌入人工智能功能,將傳統(tǒng)的優(yōu)勢(shì)與現(xiàn)代智能融合在一起:

· 嵌入式發(fā)電 *對(duì)文本、圖像和音頻矢量化的內(nèi)置支持。

· 法學(xué)院碩士 :非結(jié)構(gòu)化數(shù)據(jù)的自動(dòng)化結(jié)構(gòu)化。

· 動(dòng)態(tài)清洗規(guī)則 :優(yōu)化數(shù)據(jù)清理戰(zhàn)略。

· 非結(jié)構(gòu)化數(shù)據(jù)處理 支持鍵盤提取、OCR和語(yǔ)音對(duì)文本。

· 自動(dòng)增強(qiáng) :智能數(shù)據(jù)生成和增強(qiáng)。

終極趨勢(shì):transformer+變換

隨著技術(shù)的不斷進(jìn)步,大型模型和傳統(tǒng)ETL工藝正在逐步收斂。預(yù)計(jì)下一代ETL架構(gòu)將把大型模型的智能與ETL的效率相融合,創(chuàng)建一個(gè)能夠處理不同數(shù)據(jù)類型的綜合框架。

硬件:數(shù)據(jù)處理單元的集成

數(shù)據(jù)處理的基礎(chǔ)正在從以CIP為中心的系統(tǒng)轉(zhuǎn)向涉及CPU和GPS的協(xié)作方法:

· 基本任務(wù)的中央業(yè)務(wù)單位 :CPU擅長(zhǎng)基礎(chǔ)操作,如初步數(shù)據(jù)清理、集成和基于規(guī)則的處理,如提取、轉(zhuǎn)換和加載結(jié)構(gòu)化數(shù)據(jù)。

· 高級(jí)分析通用數(shù)據(jù)表 :擁有強(qiáng)大的并行計(jì)算能力,GPS處理大型模型訓(xùn)練和預(yù)處理數(shù)據(jù)的推理任務(wù)。

這一趨勢(shì)不僅反映在技術(shù)創(chuàng)新上,而且也反映在產(chǎn)業(yè)動(dòng)態(tài)上:英特爾正在推進(jìn)Cpui-AI協(xié)作的人工智能加速器,而NVIDIA正在將GPU應(yīng)用擴(kuò)展到傳統(tǒng)的ETL場(chǎng)景中。CPU和GPS之間的協(xié)同作用為下一代數(shù)據(jù)處理提供了更高的效率和智能支持。

軟件:數(shù)據(jù)處理架構(gòu)集成

隨著ETL和大型模型功能日益交織在一起,數(shù)據(jù)處理正在演變成一個(gè)多功能的協(xié)作平臺(tái),在這個(gè)平臺(tái)上ETL充當(dāng)大型模型的數(shù)據(jù)準(zhǔn)備工具。

大型模型在培訓(xùn)期間需要高質(zhì)量的輸入數(shù)據(jù),ETL提供初步處理,以創(chuàng)造理想的條件:

· 噪音清除及清潔 :消除噪音數(shù)據(jù),以提高數(shù)據(jù)集的質(zhì)量。

· 格式化和標(biāo)準(zhǔn)化:將不同的數(shù)據(jù)格式轉(zhuǎn)換為適合大型模型的統(tǒng)一結(jié)構(gòu)。

· 數(shù)據(jù)增強(qiáng):通過預(yù)處理和基于規(guī)則的增強(qiáng)來(lái)擴(kuò)展數(shù)據(jù)的規(guī)模和多樣性。

ai增強(qiáng)的ETL架構(gòu)的出現(xiàn)

ETL工具的未來(lái)在于嵌入人工智能的能力,以實(shí)現(xiàn)更智能的數(shù)據(jù)處理:

1.嵌入能力

· 集成用于生成嵌入的模塊,以支持基于向量的數(shù)據(jù)處理。

· 為文本、圖像和音頻生成高維表示;在下游任務(wù)中使用預(yù)先訓(xùn)練好的模型進(jìn)行語(yǔ)義嵌入。

· 直接在ETL工作流中執(zhí)行嵌入計(jì)算,減少了對(duì)外部推理服務(wù)的依賴。

2. LLM Knowledge Extraction

· 利用大型語(yǔ)言模型(LLMS)有效地處理非結(jié)構(gòu)化數(shù)據(jù),提取實(shí)體和事件等結(jié)構(gòu)化信息。

· 完成和推斷復(fù)雜領(lǐng)域,如填補(bǔ)缺失的價(jià)值或預(yù)測(cè)未來(lái)趨勢(shì)。

· 在數(shù)據(jù)集成過程中啟用多語(yǔ)言數(shù)據(jù)轉(zhuǎn)換和語(yǔ)義對(duì)齊。

3.非結(jié)構(gòu)化數(shù)據(jù)識(shí)別和鍵盤提取

· 支持視頻、圖像和音頻數(shù)據(jù),使自動(dòng)鍵盤提取用于注釋或培訓(xùn)數(shù)據(jù)集。

· 從圖像中提取特征(例如:,目標(biāo)檢測(cè),OCR),并執(zhí)行音頻到文本轉(zhuǎn)換,情緒分析等。

4.動(dòng)態(tài)清潔規(guī)則

· 根據(jù)數(shù)據(jù)上下文動(dòng)態(tài)調(diào)整清理和增強(qiáng)策略,以提高效率和相關(guān)性。

· 實(shí)時(shí)檢測(cè)異常并生成自適應(yīng)清洗規(guī)則。

· 優(yōu)化特定領(lǐng)域的清理策略(例如:(金融、保健)。

5.自動(dòng)數(shù)據(jù)增加和生成

· 通過人工智能模型(例如。,同義詞替換,數(shù)據(jù)反向轉(zhuǎn)換,對(duì)抗性樣本生成)。

· 擴(kuò)展低樣本場(chǎng)景的數(shù)據(jù)集,并支持跨語(yǔ)言或跨域數(shù)據(jù)生成。

AI增強(qiáng)ETL是一個(gè)從傳統(tǒng)ETL的轉(zhuǎn)變飛躍,提供嵌入生成、基于LLM的知識(shí)提取、非結(jié)構(gòu)化數(shù)據(jù)處理和動(dòng)態(tài)規(guī)則生成,以顯著提高數(shù)據(jù)處理的效率、靈活性和智能。

案例研究:阿帕奇--一個(gè)新一代的AI-增強(qiáng)ETL架構(gòu)

例如,開源 阿帕奇座位 該項(xiàng)目正在通過支持創(chuàng)新數(shù)據(jù)格式和先進(jìn)的處理能力,打破傳統(tǒng)的ETL限制,展示數(shù)據(jù)處理的未來(lái):

· 對(duì)非結(jié)構(gòu)化數(shù)據(jù)的本土支持 :Seatunel引擎支持文本、視頻和音頻處理,以滿足不同的模型培訓(xùn)需求。

· 矢量化數(shù)據(jù)支持 :能夠與深度學(xué)習(xí)和大模型推理任務(wù)無(wú)縫兼容。

· 嵌入大型模型特征 支持嵌入式生成和LLP轉(zhuǎn)換,將傳統(tǒng)ETL與AI推理工作流連接起來(lái)。

· "對(duì)任何"轉(zhuǎn)換 ::從任何來(lái)源轉(zhuǎn)換數(shù)據(jù)(例如:,數(shù)據(jù)庫(kù),雙日志,PDF,SaaS,視頻)到任何目標(biāo)格式,提供無(wú)與倫比的多功能性。

像Seatunel這樣的工具說明了現(xiàn)代數(shù)據(jù)處理如何演變成一個(gè)AI+大數(shù)據(jù)全堆協(xié)作系統(tǒng),成為企業(yè)AI和數(shù)據(jù)策略的核心。

結(jié)論

大型模型transformer和大數(shù)據(jù)轉(zhuǎn)換不是競(jìng)爭(zhēng)對(duì)手,而是盟友。數(shù)據(jù)處理的未來(lái)在于ETL和大型模型的深入整合,具體說明如下:

1. 協(xié)作數(shù)據(jù)處理股 :利用Cpu-GSP的協(xié)同作用,進(jìn)行結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)處理。

2. 動(dòng)態(tài)數(shù)據(jù)處理架構(gòu) :將人工智能嵌入到ETL中,用于嵌入生成、LLS知識(shí)提取和智能決策。

3. 下一代工具 :像阿帕奇賽恩涅爾這樣的開源解決方案突出了這一趨勢(shì),使"對(duì)任何"數(shù)據(jù)轉(zhuǎn)換和重新定義ETL邊界成為可能。

大型模型和ETL的收斂將推動(dòng)數(shù)據(jù)處理進(jìn)入一個(gè)智能、標(biāo)準(zhǔn)化和開放的新時(shí)代。通過滿足企業(yè)需求,這種演變將推動(dòng)企業(yè)創(chuàng)新和智能決策,成為數(shù)據(jù)驅(qū)動(dòng)型企業(yè)未來(lái)的核心引擎。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉