在新一輪科技革命的浪潮中,AI 已經(jīng)成為全行業(yè)轉型升級的核心驅動力。疫情當前,不少企業(yè)開始用 AI 推動生產(chǎn)經(jīng)營和員工安全復工,如用 AI 智能客服提供語音咨詢服務,有效規(guī)避客服人員集中辦公;通過營銷 AI 自動開展線上活動,以非接觸形式為客戶提供差異化服務等。
才云 Caicloud Clever 是基于容器底層技術的云原生 AI 平臺,提供數(shù)據(jù)管理、模型管理、流程管理、資源管理四大核心能力,涵蓋企業(yè)從數(shù)據(jù)治理、模型開發(fā)、模型訓練、模型調(diào)優(yōu)、模型發(fā)布、AI 服務彈性運營的全流程自動化管理:
數(shù)據(jù)管理:機器學習和 AI 以數(shù)據(jù)為原料,才云 Caicloud Clever 平臺提供結構化與非結構化數(shù)據(jù)的存儲、版本化管理、協(xié)同標注等服務;
模型管理:才云 Caicloud Clever 通過基于線上 Notebook 的協(xié)同模型開發(fā)、超參數(shù)搜索、模型評估、多模型比對等能力,降低模型開發(fā)的門檻,并通過模型倉庫對寶貴的模型資產(chǎn)進行版本化管理,實現(xiàn)模型的可復現(xiàn);
流程管理:才云 Caicloud Clever 的工程項目實現(xiàn)了 AI 開發(fā)運維的流程自動化,通過自動化提升端到端 AI 開發(fā)、發(fā)布、運維的整體效率;
資源管理:才云 Caicloud Clever 擴展了 Kubernetes 和 Kubeflow 的調(diào)度能力,實現(xiàn)了對 CPU、GPU 的細粒度虛擬化、共享、分布式調(diào)度,并能對海量數(shù)據(jù)和復雜模型進行分布式訓練加速和彈性推理服務。
為幫助更多客戶根據(jù)不同場景、產(chǎn)品、用戶群體定制 AI 解決方案,才云特推出 Caicloud Clever 全新版本 v1.5.0。新版本進一步優(yōu)化 AutoML,算法覆蓋更多場景,通過平臺+預置算法解決方案,幫助企業(yè)快速落地 AI 服務,在更多場景下以更高效的方式獲取更高收益。
下面是才云新一代云化 AI 平臺 Caicloud Clever v1.5.0 四大新特性的詳解。
AutoML 進一步優(yōu)化,模型開發(fā)更高效
AutoML 的目的在于通過自動化的數(shù)據(jù)驅動將機器學習應用于現(xiàn)實問題。出于對技術自主可控和規(guī)?;瘧玫目剂?,才云 Caicloud Clever 持續(xù)提升自動化能力,降低使用門檻以貼合企業(yè)現(xiàn)實人力和技術環(huán)境。
在新版本中,AutoML 以工程視角持續(xù)提升端到端的模型交付體驗,重點優(yōu)化自動模型訓練、超參數(shù)自動尋優(yōu)等關鍵功能。用戶只需提供訓練數(shù)據(jù)和初始參數(shù),即可讓才云 Caicloud Clever 自動完成調(diào)參,鎖定最優(yōu)超參數(shù),最大化提升訓練效率及效果。
同時,才云 Caicloud Clever 提供的過程可視化能幫助用戶快速了解模型訓練過程中超參數(shù)所發(fā)揮的功能,為企業(yè)更好地應用 AI 積累必須的技術認知、直覺和經(jīng)驗。
預置算法覆蓋更多場景,開箱即用
作為對業(yè)務負責的下一代云化 AI 平臺,才云 Caicloud Clever 封裝了多種企業(yè)業(yè)務場景,以 500 強企業(yè)落地成果賦能每一位用戶定制化 AI 應用開發(fā)。
在 Caicloud Clever v1.5.0 中,才云新增超過 20 種預置算法模型,涵蓋圖像分類、圖像分割、圖像檢測、OCR、機器翻譯、文本分類、傳統(tǒng)機器學習等,覆蓋企業(yè) AI 應用全場景。方便用戶更快、更靈活地找到符合實際應用的解決方案,并得到優(yōu)質的模型與預測效果。
服務在線部署,性能提升更極致
對企業(yè)客戶來說,完成模型訓練后,為了確定其性能和準確性是否滿足業(yè)務需求,企業(yè)往往需要對其進行測試、驗證和評估。
在新版本中,除了支持用戶利用歷史數(shù)據(jù)測試模型性能,才云 Caicloud Clever 現(xiàn)在也提供對外在線部署服務功能與快速便捷的模型在線驗證功能。模型訓練好后,在正式發(fā)布使用前,用戶可以通過頁面上傳圖片進行實時數(shù)據(jù)在線測試,快速校驗模型效果,進而綜合不同業(yè)務規(guī)則衡量模型的整體適用性。
模型服務支持 GPU 顯存共享
GPU 是支撐 AI 應用的關鍵計算加速設備。當前,TensorFlow、PyTorch 等主流框架只支持將一個或多個 GPU 分配給一個模型服務。數(shù)據(jù)表明,當模型服務成功部署后,GPU 資源利用率大多只有 20%-30%。如果一個模型服務在生產(chǎn)環(huán)境中獨占一塊昂貴的 GPU,無疑會給企業(yè)造成極大的資源浪費。
在新版本中,為了提高顯存資源的利用率,才云 Caicloud Clever 在原先按品牌、型號調(diào)度 GPU 資源的基礎上,新推出對多個模型服務共享 GPU 顯存的支持。并行運行多個 AI 模型服務時,用戶可以把 GPU 拆分成多個部分,為模型訓練等任務分配更大的 GPU 分片,把較少的資源提供給模型測試等資源占用較小的任務,顯著提高計算資源的利用率和機器學習吞吐量。
擁抱轉型,擁有未來
防疫不分線上線下,業(yè)務開展和市場競爭也不分線上線下。面對由疫情引發(fā)的經(jīng)濟下行壓力,很多企業(yè)已經(jīng)開始走向對內(nèi)削減公司運營成本、對外創(chuàng)新服務終端客戶模式。疫情過后,企業(yè)將迎來真正決定行業(yè)未來前進方向的關鍵時期。
在這個背景下,如果企業(yè)能迅速開發(fā)、上線定制化的各類 AI 服務,利用智能系統(tǒng)自動化部分內(nèi)部管理流程,在不同的場景和業(yè)務中根據(jù)數(shù)據(jù)做智能決策,那么企業(yè)增加營收的目標也許不再需要通過增加人力資源投入就能實現(xiàn)。
根據(jù) 2019 年業(yè)內(nèi)的一份報告,一家企業(yè)如果想完全自主優(yōu)化、管理機器學習模型,至少需要 1-6 名專業(yè)數(shù)據(jù)科學家。借助才云的云化 AI 平臺 Caicloud Clever,大量人力不足的企業(yè)能享受到普惠 AI,即便不具備專家,普通 IT 團隊也能把 AI 模型服務開發(fā)簡化成工廠作業(yè),快速開發(fā)、上線各類更貼近產(chǎn)業(yè)特性的應用,這對于企業(yè)的長期發(fā)展和技術戰(zhàn)略布局有著實際意義。