AI是在怎樣成為云端的訓練師的

時間：2020-05-20 17:00:01

關鍵字： AI 開發(fā)者云服務云平臺

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] 在這場大浪潮中，越來越多企業(yè)在尋求可以將AI集成到自有業(yè)務與產品中的渠道，無數開發(fā)者渴望搶先在AI舞臺上釋放創(chuàng)造力，然而面對深度學習為代表的巨型數據集，如果自建數據中心或個人電腦帶不動AI這匹“

在這場大浪潮中，越來越多企業(yè)在尋求可以將AI集成到自有業(yè)務與產品中的渠道，無數開發(fā)者渴望搶先在AI舞臺上釋放創(chuàng)造力，然而面對深度學習為代表的巨型數據集，如果自建數據中心或個人電腦帶不動AI這匹“算力怪獸”，該怎么辦？

作為基礎設施一般存在的云服務商，此時就被賦予了一個新的角色——AI訓練師。

花式AIaaS，離不開“訓練”二字

云計算的普及，讓各種AI能力以“即服務”的形式出現在了各行各業(yè)之中。去年，RightScale的云研究報告指出，企業(yè)格外關注于AI技術體系中的機器學習。當被問詢未來計劃使用哪種類型的公有云服務時，絕大多數的受訪者選擇了機器學習，12%的受訪者表示他們正在使用這一服務，46%的受訪者則表示他們正在測試或計劃部署機器學習服務。

目前看來，AI主要是以三種形式被“即服務”到產業(yè)當中：一種是Chatbot，比如蘋果Siri、微軟Cortana或亞馬遜Alexa這樣的智能語音助理，被業(yè)務集成后可以直接打通AI體驗，解放人力;第二種是API。云服務商開發(fā)出的AI模型，如NLP、圖片分類、視頻識別等等，以應用程序編程接口（API）的形式集成到自身的平臺上去，避免從零開發(fā)。目前廣泛應用的人臉識別、語音翻譯等都是以各種形式被普及的。第三種則是機器學習框架。開發(fā)人員利用云訪問機器學習框架構建出模型，再基于自身現有的數據對模型進行訓練，這種方式比起自建型算法模型更加便捷，節(jié)省時間。

顯然，這些讓AI全面開花的主流方式，依然依賴于一個環(huán)節(jié)，那就是訓練。

我們知道，雖然目前絕大多數云服務商都提供多種AI模型來幫助各行各業(yè)實現智能化。但云服務商無法深入到產業(yè)肌理的每一個細微紋路，想要讓AI落地時精準地匹配現實需求，高度定制化的數據訓練就十分必要了。

即使云服務商有類似的平臺模型可供企業(yè)客戶調用，一個良好的模型依然需要具備可擴展、可訓練性，也就是能夠根據實際數據隨時自我更新，不斷提升性能，才能真正成為提質增效的神兵利器。

從這個層面看，面向企業(yè)和個人開發(fā)者的AI訓練服務，幾乎成了公有云無法繞開的關鍵能力。

上探AI訓練，對公有云意味著什么？

今天，在公有云上進行深度學習訓練可謂是人工智能的重要趨勢，然而有能力向企業(yè)和個人開發(fā)者輸出云端訓練服務的云服務商可說是鳳毛麟角。

例如亞馬遜推出了AWS深度學習容器，也方便客戶定制AI訓練流程;谷歌和Facebook也推出了適合自身深度學習框架TensorFlow的訓練平臺;在中國，華為、百度、阿里、浪潮、騰訊等也讓定制化AI訓練服務走上了云端，整合到他們的企業(yè)服務解決方案中去。

我們知道，深度學習難以離開大數據和規(guī)?；柧毜闹危呔拖窬o密結合的輪軸推動著算法向高性能、高精度的方向發(fā)展，進而影響整個社會的AI進程。但目前市面上只有少數幾家頭部公有云廠商有類似的服務。為什么云端AI訓練如何“陽春白雪”？

其中很大一部分原因在于，定制化神經網絡的訓練任務，往往需要強大的計算能力，也就是GPU集群來保障。然而今天， AI算力依然是一種昂貴的計算資源，而云端訓練往往會在不訓練時將算力資源釋放出去，實現彈性調配，服務商按照實際計算消耗進行付費，個人開發(fā)者與企業(yè)則可以省去購買計算單元或是自建數據中心的高昂開支，從而大大降低了AI落地的成本。

不過，目前用戶可以選擇的云端訓練平臺并不多。主要原因是用于神經訓練的GPU芯片幾乎由英偉達一家獨大，云服務商建立訓練平臺的成本很高。后來谷歌、華為分別推出了自己的大規(guī)模計算單元，起到了一定了市場制衡作用。但整體而言，訓練環(huán)節(jié)的云端芯片依然難以滿足廣泛的部署需求。

還有一個顧慮是云巨頭在AI領域的投入與創(chuàng)新，正好具備了輸出基礎算力與應用工具的雙重能力。大多企業(yè)想要AI，依然需要花費大量時間與精力、人力去熟悉相應的深度學習框架、標注數據、調教參數、設計容錯等等，在一份Vanson Bourne公司的“企業(yè)人工智能狀況”調查報告中，有34%的企業(yè)IT決策者表示他們沒有合適的人才來支持技術的成功部署，30%缺乏實施的預算。

舉個例子，大部分中小企業(yè)采用公有云來進行超大規(guī)模的AI訓練，一個基本出發(fā)點就是試錯和驗證AI進入產業(yè)的新想法，因此時間成本就非常重要，這需要效率更高、擴展性更好的深度學習框架和專項加速來支撐。因此，想要幫助企業(yè)減少定制化訓練的學習門檻與風險成本，只有少數有意愿、有實力的頭部云技術巨頭才能切入。

另外值得注意的是，無論是需要財報好看的企業(yè)，還是渴望擁抱AI的開發(fā)者，云平臺面臨的訓練任務是五花八門的，接收到的數據資源也很可能放飛自我。不同的程序、業(yè)務模式可能對應著不同的訪問模式和存儲結構，因此，如何存儲、處理、分析、最終輸出基于任意類型數據的訓練模型，這就要求云平臺擁有構建和管理數據湖，來處理各種結構化或非結構化的數據，并統統投喂給神經網絡。顯然，想要積累如此龐大且豐滿的全量數據，頭部選手的表現更優(yōu)且更完備。

總體來看，AI訓練作為智能這座大廈所必備的原材料鍛造過程，迫切需要一個靈活機動的全能選手“隨叫隨到”，就地完成特殊模塊的精雕細琢然后就功成身退，而不是在材料原產地處理完再運往施工現場。

具備這種彈性作戰(zhàn)能力的“工程隊”，顯然具備爭奪市場的關鍵能力。這也是為什么今天幾乎所有頭部云廠商都開始紛紛輸出自身的云端訓練能力，甚至不惜“虧本賺吆喝”。

那么向AI的技術上游切入訓練服務產業(yè)鏈，對于公有云廠商來說，究竟意味著什么？是以算法API和應用程序的方式“被連接”？還是提供工具和計算平臺“被集成”？亦或者向更底層的芯片等“硬實力”進發(fā)？

如果某一朵云懷抱著的野望，是真正成為智能時代的容器與基礎設施，構建全方位、立體化的AI技術體系，那么集硬件算力、軟件技術、生態(tài)開發(fā)于一體的AI訓練，雖然是復雜而漫長的冒險，卻是中國AI產業(yè)真正進入千行萬業(yè)所必要的投入與支撐。

一方面，云服務商需要開放自身的計算資源，為了不掣肘他人，就必須倒逼半導體產業(yè)自我升級。尤其時我國的短板，如承擔訓練任務的云端訓練芯片，針對深度學習框架專項加速、提高性能的計算單元，高精度基礎模型的釋放等等，這些AI訓練的必要支撐，伴隨云服務商的產業(yè)上探實現系聯動升級，正是當前的趨勢。

另外，云端分布式訓練、終端模型部署相結合，正在成為AI開發(fā)流程的全周期模式。企業(yè)利用公有云的算力、解決方案所訓練的專有模型，大多需要在端、邊側部署和應用，在“從硬到軟再到硬”的過程中，往往需要云平臺協同綜合考慮，這也讓構建從訓練到應用的產業(yè)閉環(huán)成為可能。而中國企業(yè)和開發(fā)者，以及各產業(yè)端的關鍵數據、創(chuàng)新應用等都得以在國產云環(huán)境中運行，在地域化情緒與環(huán)境不穩(wěn)定的當下，也有著重要的產業(yè)安全戰(zhàn)略意義。

由此，我們可以引出一個新的話題：一個好的云端AI訓練平臺，應用具備哪些能力？

讓AI飛入尋常百姓家的云端“魔術手”

AI開始走進大眾視野，是以阿爾法狗所代表的深度學習技術為起點。而云服務商所扮演的角色，就是不斷將實驗室中影影綽綽的技術“實體化”、工具化成一個個道具，運用一雙虛實變幻、軟硬結合的“魔術手”，將AI驚艷地呈現在各行各業(yè)、普羅大眾眼前。

通過這雙魔術之手，我們則可以反向去理解，“云端訓練”在AI普惠的過程當中，都需要哪些條件的支持：

1.計算性能的持續(xù)升級。算力，是云端訓練的基礎保障，這里涉及兩個基本命題，一是絕對規(guī)模，也就是硬件化計算能力，在訓練時，數據會被分派給眾多訓練機器，再通過反饋及標志變量重新組合在一起，從而創(chuàng)建完整的訓練模型，對GPU驅動、底層庫之間的兼容性等硬件提出了不少挑戰(zhàn)。第二需要考慮的則是精度，通過網絡優(yōu)化和超參組合，云平臺可以利用少量數據就達到出色的訓練效果和高性能的模型，這對于一些中小微開發(fā)者來說有著化不可能為可能的現實意義。

2.友好模式的開發(fā)態(tài)。簡單來說，就是降低開發(fā)者的訓練成本、學習門檻。一種方式是提供簡單易上手的開發(fā)工具和交互界面。舉個例子，神經網絡訓練的數據集往往達到1PB的數據量，即使用1G帶寬的網絡來傳輸也需要耗費將近4個月，黃花菜都要涼了，對此一些云巨頭借助新的傳輸工具，如谷歌的Transfer Appliance ，就能在25 小時內將 1PB 的數據裝入數據中心。還有一些自動化、可視化的任務管理工具，能夠大大解放開發(fā)者的重復勞動，比如訓練任務一站式托管，可以自動跟蹤任務的訓練狀態(tài)，提供輸出日志功能，開發(fā)者只需實時監(jiān)控就可以了;

友好的第二種意義，則是云平臺的兼容性。我們知道，目前深度學習框架有許多，開發(fā)者需要在不同的框架下完成特定的訓練及推論任務，因此云平臺的兼容并蓄就非常重要了。像是新的AWS容器就能夠支持谷歌的TensorFlow、Apache的MXNet以及臉書的PyTorch等不同的機器學習架構，華為新發(fā)布的Atlas智能計算平臺，也志在解決中國企業(yè)和開發(fā)者對算力與兼容性的難題。這意味著對每一種架構提供針對性的優(yōu)化和加速，讓特定的模型訓練速度更上一層樓，這也有助于打消企業(yè)開發(fā)者的上云顧慮。

3.穿透各個場景的降本增效。一方面，成本控制作為云端訓練的核心優(yōu)勢，在整個開發(fā)過程中是不可或缺的。這意味著云平臺需要具備合理的擴展性與靈活度，讓企業(yè)輕松獲得自己所需要的AI資源并靈活合理地支付費用，如果試點項目沒有成功，也可以很容易地關閉;而項目成功后，也可以很容易地擴大資源規(guī)模。

另外，基于原生場景數據的訓練完成以后，如何將模型快速擴展到企業(yè)或產業(yè)其他業(yè)務部門及軟硬件，這是困擾AI開發(fā)生態(tài)的落地難題。能夠集中打通數據，讓終端和云端在統一的智能基礎設施上協同完成復雜任務處理的開發(fā)生態(tài)，將會在未來釋放更具應用價值的能量。

4.云端數據訓練的安全保障。定制化訓練意味著企業(yè)和開發(fā)者需要將自身的關鍵敏感數據上傳到云端，多個“租戶”任務同時進行，不同訓練任務數據之間的安全隔離就變得至關重要了。否則影響的不僅僅是模型的精度與性能，更可能在遷移、訓練、存儲中面臨數據泄露風險。

云平臺一方面需要確保自身數據的合規(guī)性，保證算法不因為地方法規(guī)的數據政策限制而失效;同時也需要應對潛在的網絡攻擊，采取數加密等手段來實現完善安全的服務調用。

總體而言，云端訓練讓AI得以在軟硬件雙重通道上得到淬煉，進而以低門檻、可應用的方式真正適配千行萬業(yè)的智能化需求。同時我們應該看到的是，云服務想要描繪出賦能無數產業(yè)、抵達生活方方面面的AI普惠藍圖，還需要跨越一座座高聳的山峰。而在這一條時代的跑道上，需要的不僅是宣傳口徑上的華麗辭藻，更是浸透了汗水與淚水的砥礪前行。

來源：腦極體