當(dāng)前位置:首頁 > 智能硬件 > 人工智能AI
[導(dǎo)讀] 數(shù)據(jù)科學(xué)家與DevOps工程師相互協(xié)作可以獲得更好的業(yè)務(wù)成果,但了解他們的不同需求是關(guān)鍵。 數(shù)據(jù)科學(xué)家與軟件開發(fā)人員有一些共同的實踐和需求。數(shù)據(jù)科學(xué)家和軟件工程師都計劃、構(gòu)建、編碼、迭代

數(shù)據(jù)科學(xué)家與DevOps工程師相互協(xié)作可以獲得更好的業(yè)務(wù)成果,但了解他們的不同需求是關(guān)鍵。

數(shù)據(jù)科學(xué)家與軟件開發(fā)人員有一些共同的實踐和需求。數(shù)據(jù)科學(xué)家和軟件工程師都計劃、構(gòu)建、編碼、迭代、測試和部署代碼來實現(xiàn)他們的目標(biāo)。對于軟件開發(fā)人員來說,這通常意味著自定義編碼應(yīng)用程序和微服務(wù);數(shù)據(jù)科學(xué)家實現(xiàn)與數(shù)據(jù)操作的數(shù)據(jù)集成,通過分析模型進(jìn)行預(yù)測,并創(chuàng)建儀表板以幫助最終用戶導(dǎo)航結(jié)果。

那些尋求自動化,并與運營工程師開展合作的Devops工程師應(yīng)該擴(kuò)大其業(yè)務(wù)范圍,并向數(shù)據(jù)科學(xué)家提供服務(wù)。

擁有多個數(shù)據(jù)科學(xué)團(tuán)隊的大型組織可能會投資于Alteryx Analytics、Databricks、Dataiku等數(shù)據(jù)科學(xué)平臺,這些平臺提供了用于開發(fā)、測試和部署分析模型的混合工具。這些工具在數(shù)據(jù)集和分析功能、集成選項、治理、業(yè)務(wù)用戶工具和部署選項上展開激烈的競爭。

DevOps對數(shù)據(jù)科學(xué)家的要求與應(yīng)用程序開發(fā)人員不同

并非每個組織都對投資數(shù)據(jù)科學(xué)平臺做好了準(zhǔn)備,或者可能只需要基本操作能力的小型數(shù)據(jù)科學(xué)團(tuán)隊。在這些情況下,最好將DevOps最佳實踐應(yīng)用于數(shù)據(jù)科學(xué)團(tuán)隊,而不是選擇和使用平臺。

為此,許多用于軟件開發(fā)團(tuán)隊的敏捷和開發(fā)范例可以應(yīng)用于數(shù)據(jù)科學(xué)工作流程,并進(jìn)行一些重大調(diào)整。雖然數(shù)據(jù)科學(xué)家的流程與開發(fā)人員的工作流程類似,但存在一些重要的區(qū)別。

?數(shù)據(jù)科學(xué)工作需要圍繞數(shù)據(jù)集、模型和配置進(jìn)行更多實驗。這不是大多數(shù)軟件開發(fā)商發(fā)布管理實踐遵循的簡單計劃、構(gòu)建、測試、部署周期。

?開發(fā)和測試模型可能無法使用統(tǒng)一的計算堆棧。一些模型可以使用簡單的Python腳本實現(xiàn),而其他模型可以使用Apache Spark和其他大數(shù)據(jù)平臺。

?即使模型處于開發(fā)階段,計算需求也會有很大差異。例如,一位數(shù)據(jù)科學(xué)家想要針對一個大數(shù)據(jù)集測試一個模型的六個變體,與另一位在一個規(guī)模較小數(shù)據(jù)集測試一個模型的數(shù)據(jù)科學(xué)家相比,需要更多的計算能力和存儲容量。

?部署到生產(chǎn)中的模型也需要持續(xù)維護(hù),但除了更改底層代碼之外,還有更多變量。模型還需要使用更新的數(shù)據(jù)集進(jìn)行重新訓(xùn)練、重新配置操作參數(shù)以及調(diào)整基礎(chǔ)設(shè)施,所有這些都可能觸發(fā)新的部署。

?監(jiān)控數(shù)據(jù)管道通常需要更復(fù)雜的驗證。知道數(shù)據(jù)操作過程正在運行,并且模型正在處理數(shù)據(jù)是不夠的。這些工具一旦投入生產(chǎn),就必須對吞吐量、錯誤條件、數(shù)據(jù)源異常以及可能影響下游結(jié)果的其他條件進(jìn)行監(jiān)控。

?要想取得成功,數(shù)據(jù)科學(xué)家必須與開發(fā)人員、工程師、業(yè)務(wù)負(fù)責(zé)人合作,這與在應(yīng)用程序開發(fā)中鞏固開發(fā)人員和操作人員之間的協(xié)作相比,可能是一項更艱巨的任務(wù)。此外,許多數(shù)據(jù)科學(xué)家和團(tuán)隊可能不會向IT組織報告,因此更難為這些組織制定標(biāo)準(zhǔn)和治理。

在開始采用DevOps實踐和解決方案之前,支持?jǐn)?shù)據(jù)科學(xué)家需要了解這些和其他差異。

從數(shù)據(jù)科學(xué)家的經(jīng)驗開始

與應(yīng)用程序開發(fā)人員一樣,數(shù)據(jù)科學(xué)家最感興趣的是解決問題,他們非常關(guān)注配置工具,但對配置基礎(chǔ)設(shè)施的興趣往往更少。與軟件開發(fā)人員不同,數(shù)據(jù)科學(xué)家可能沒有相同的經(jīng)驗和背景來充分配置他們的開發(fā)工作流程。這為DevOps工程師提供了一個將數(shù)據(jù)科學(xué)家視為客戶,幫助他們定義需求,以及擁有交付解決方案所有權(quán)的機會。

這可以從數(shù)據(jù)科學(xué)家需要的基礎(chǔ)設(shè)施開始。他們是用Python、R還是其他語言編寫代碼?他們使用什么工具(Jupyter、Tableau、Apache Kafka和NLTK)進(jìn)行分析和建模?他們使用哪些數(shù)據(jù)庫和云平臺作為數(shù)據(jù)源,用于存儲經(jīng)過訓(xùn)練的數(shù)據(jù),以及用于部署模型?

為此,DevOps工程師可以幫助數(shù)據(jù)科學(xué)家選擇和標(biāo)準(zhǔn)化開發(fā)環(huán)境。這通常可以在計算設(shè)備或虛擬桌面上完成。無論哪種方式,將他們的應(yīng)用程序和配置鏡像到開發(fā)環(huán)境是與數(shù)據(jù)科學(xué)家進(jìn)行合作的重要的第一步。

在此之后,DevOps工程師應(yīng)該檢查數(shù)據(jù)科學(xué)家存儲代碼的位置、代碼的版本控制方式,以及代碼如何為部署打包。例如,一些數(shù)據(jù)科學(xué)家對使用版本控制工具(如Git)相對較新;另一些數(shù)據(jù)科學(xué)家可能使用代碼庫,但沒有實現(xiàn)自動化集成。實現(xiàn)持續(xù)集成是DevOps工程師幫助數(shù)據(jù)科學(xué)家的第二個方面,因為它創(chuàng)建了標(biāo)準(zhǔn),并刪除了測試新算法的一些人工工作。

需要記住的一點是,某些SaaS和企業(yè)數(shù)據(jù)平臺可能具有內(nèi)置版本控制,并且不會自然地與為代碼設(shè)計的版本控制系統(tǒng)接口。其中許多平臺都有API來觸發(fā)集成和部署或其他可以模仿持續(xù)集成(CI)/持續(xù)交付(CD)管道的機制。

定義部署管道并配置基礎(chǔ)架設(shè)施

在開發(fā)環(huán)境和持續(xù)集成標(biāo)準(zhǔn)化的情況下,DevOps工程師應(yīng)該考慮自動化測試和生產(chǎn)環(huán)境的其他方面。這可以通過使用Jenkins等工具引入部署管道,并使用Chef、Puppet、Ansible或其他工具將基礎(chǔ)設(shè)施配置為代碼來實現(xiàn)。

數(shù)據(jù)科學(xué)環(huán)境也是Docker等容器以及Kubernetes等容器管理和編排工具的有力候選者。數(shù)據(jù)科學(xué)環(huán)境通常是數(shù)據(jù)操作、數(shù)據(jù)管理和數(shù)據(jù)建模平臺的組合,這些平臺需要作為集成環(huán)境進(jìn)行部署和管理。

了解運行數(shù)據(jù)集成、機器學(xué)習(xí)培訓(xùn)和其他數(shù)據(jù)分析工作的規(guī)模和頻率至關(guān)重要。DevOps工程師很可能會發(fā)現(xiàn)多種模式,因為數(shù)據(jù)科學(xué)家混合了不同的工作負(fù)載,例如,對部分?jǐn)?shù)據(jù)集頻繁測試新模型、計劃運行以重新培訓(xùn)生產(chǎn)機器學(xué)習(xí)模型,以及培訓(xùn)新分析模型的特殊工作。這些工作負(fù)載類型應(yīng)該幫助DevOps工程師決定如何最好地配置和擴(kuò)展云計算基礎(chǔ)設(shè)施,以滿足不同的計算和存儲需求。

開發(fā)人員、DevOps工程師和數(shù)據(jù)科學(xué)家還應(yīng)該就業(yè)務(wù)成果進(jìn)行協(xié)作。

實現(xiàn)DevOps的最重要方面是促進(jìn)具有沖突目標(biāo)的開發(fā)人員和DevOps工程師之間的協(xié)作。開發(fā)人員經(jīng)常面臨著更改應(yīng)用程序的壓力,DevOps工程師需要對生產(chǎn)工作流的性能和可靠性負(fù)責(zé)。讓開發(fā)人員和工程師在自動化和標(biāo)準(zhǔn)化配置方面進(jìn)行協(xié)作可以實現(xiàn)這兩個目標(biāo)。

數(shù)據(jù)科學(xué)家是這次合作的第三方。他們經(jīng)常面臨向高管和業(yè)務(wù)經(jīng)理提供分析結(jié)果的壓力。其他時候,他們正在開發(fā)模型,希望開發(fā)人員在他們的應(yīng)用程序中使用這些模型。他們對可變?nèi)萘炕A(chǔ)設(shè)施有著強烈的需求,在試驗新平臺、庫和基礎(chǔ)設(shè)施配置時,他們可能比開發(fā)人員要求更高。

數(shù)據(jù)科學(xué)家需要與開發(fā)人員和工程師建立這種合作關(guān)系,以提供成功的分析成果。而了解他們的目標(biāo)、定義目標(biāo)以及在DevOps實現(xiàn)上進(jìn)行合作是這些團(tuán)隊如何協(xié)作和交付業(yè)務(wù)成果。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉