騰訊首個(gè)AI開源項(xiàng)目Angel升級(jí),發(fā)布里程碑3.0版本
掃描二維碼
隨時(shí)隨地手機(jī)看文章
近日,騰訊低調(diào)發(fā)布首個(gè)AI開源項(xiàng)目Angel 3.0版本,進(jìn)化版的Angel 3.0則嘗試打造一個(gè)全棧的機(jī)器學(xué)習(xí)平臺(tái)。
Angel是什么?
先來(lái)科普一下,Angle是基于參數(shù)服務(wù)器架構(gòu)的分布式計(jì)算平臺(tái),致力于解決稀疏數(shù)據(jù)大模型訓(xùn)練以及大規(guī)模圖數(shù)據(jù)分析問題,由騰訊與北京大學(xué)聯(lián)合研發(fā)。
最新版本的3.0,功能特性涵蓋了機(jī)器學(xué)習(xí)的各個(gè)階段:特征工程,模型訓(xùn)練,超參數(shù)調(diào)節(jié)和模型服務(wù)。
Angel的特征工程模塊基于Spark開發(fā),增強(qiáng)了Spark的特征選擇功能,同時(shí)使用特征交叉和重索引實(shí)現(xiàn)了自動(dòng)特征生成。這些組件可以無(wú)縫地整合進(jìn)Spark的流水線。為了讓整個(gè)系統(tǒng)更加的智能,Angel 3.0還新增了超參數(shù)調(diào)節(jié)的功能,目前支持隨機(jī)搜索,網(wǎng)格搜索和貝葉斯優(yōu)化三種算法。
在模型服務(wù)方面,Angel 3.0提供了一個(gè)跨平臺(tái)的組件Angel Serving, Angel Serving不僅可以滿足Angel自身的需求,還可以為其他平臺(tái)提供模型服務(wù)。
在生態(tài)方面,Angel也嘗試將參數(shù)服務(wù)器(PS)能力賦能給其他的計(jì)算平臺(tái),目前已經(jīng)完成了Spark On Angel和PyTorch On Angel兩個(gè)平臺(tái)的建設(shè)。
這兩個(gè)平臺(tái)各有優(yōu)勢(shì)和側(cè)重,Spark On Angel使用的是Angel內(nèi)置的算法核心,主要負(fù)責(zé)常見推薦領(lǐng)域的機(jī)器學(xué)習(xí)算法和基礎(chǔ)圖算法。 PyTorch On Angel使用PyTorch作為計(jì)算核心,主要負(fù)責(zé)推薦領(lǐng)域深度學(xué)習(xí)算法和圖深度學(xué)習(xí)算法。
回顧Angle 的歷史。2017 年 6 月, Angel 在 Github 上低調(diào)開源。開源兩周,這個(gè)項(xiàng)目在 Github 上已收獲 183 Watch,1693 Star,389 Fork,也吸引了許多業(yè)界工程師關(guān)注與貢獻(xiàn)。
2018年9月,Angel 2.0版本發(fā)布,支持千億級(jí)模型維度訓(xùn)練,同時(shí)算法庫(kù)也更加豐富,首次引入了深度學(xué)習(xí)算法和圖算法。同年,Angel加入Linux旗下深度學(xué)習(xí)基金會(huì)(現(xiàn)已更名為 LF AI 基金會(huì)(LF AI Foundation)),結(jié)合基金會(huì)成熟的運(yùn)營(yíng),升級(jí)的Angel 2.0與國(guó)際開源社區(qū)繼續(xù)深入互動(dòng),致力于讓機(jī)器學(xué)習(xí)技術(shù)更易于上手研究及應(yīng)用落地的目標(biāo)。
截至目前,Angel在GitHub上Star數(shù)已超過4200,F(xiàn)ork數(shù)超過1000。Angel項(xiàng)目目前總共有38為代碼貢獻(xiàn)者,其他包括8位committer,他們總共提交了超過2000個(gè)commit。而騰訊開源在GitHub上整體的項(xiàng)目數(shù)也已突破80個(gè),涵蓋AI、云計(jì)算、安全等多個(gè)領(lǐng)域,累計(jì)獲得了超過23萬(wàn)Star。
從1.0到3.0,Angel從一個(gè)單一的模型訓(xùn)練平臺(tái)發(fā)展到涵蓋機(jī)器學(xué)習(xí)各個(gè)流程,包含自己生態(tài)的通用計(jì)算平臺(tái),代碼量也超過了50萬(wàn)行。
為了后續(xù)維護(hù)和使用的方便,Angel將拆分成8個(gè)子項(xiàng)目,統(tǒng)一放在Angel-ML目錄下(https://github.com/Angel-ML):angel,PyTorch On Angel,sona(Spark On Angel),serving,automl,mlcore,math2和format。
而在應(yīng)用上,據(jù)了解,自2016年年初在騰訊內(nèi)部上線以來(lái),Angel 已應(yīng)用于微信支付、QQ、騰訊視頻、騰訊社交廣告及用戶畫像挖掘等業(yè)務(wù)。
在過去12個(gè)月,Angel在騰訊內(nèi)部的任務(wù)數(shù)量有了非常明顯的增長(zhǎng),增幅達(dá)到150%。值得一提的是,Spark On Angel的任務(wù)數(shù)增長(zhǎng)了10倍,為了讓Spark On Angel更加的易用,3.0版本對(duì)Spark On Angel做了大幅度升級(jí)。
Angel官方還維護(hù)了一個(gè)QQ群與外部開發(fā)者進(jìn)行交流,對(duì)群用戶的統(tǒng)計(jì)表明:
Angel的絕大部分用戶來(lái)自中國(guó),主要分布在北京,上海,杭州,成都和深圳等互聯(lián)網(wǎng)行業(yè)比較發(fā)達(dá)的城市。有超過100家的公司和科研機(jī)構(gòu)在使用或測(cè)試Angel,其中包括了中國(guó)最頂級(jí)的IT公司:微博,華為和百度等。記者記者(公眾號(hào):記者)記者