揭秘騰訊大數(shù)據(jù)十年發(fā)展歷程:從關(guān)系型數(shù)據(jù)庫到分布式機(jī)器學(xué)習(xí)
掃描二維碼
隨時(shí)隨地手機(jī)看文章
10月18日消息,近日,騰訊大數(shù)據(jù)團(tuán)隊(duì)詳細(xì)披露了騰訊大數(shù)據(jù)十年發(fā)展歷程,并全面展示了騰訊第三代全棧機(jī)器學(xué)習(xí)平臺(tái)Angel在大模型數(shù)據(jù)訓(xùn)練、深度學(xué)習(xí)、圖計(jì)算等方面的技術(shù)能力。
據(jù)騰訊大數(shù)據(jù)負(fù)責(zé)人劉煜宏介紹,騰訊大數(shù)據(jù)從2009年開始, 經(jīng)歷離線計(jì)算、實(shí)時(shí)計(jì)算與機(jī)器學(xué)習(xí)三個(gè)階段,2009年之前,騰訊主要使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫。2009年開始,傳統(tǒng)的單機(jī)數(shù)據(jù)庫所提供的服務(wù),在系統(tǒng)可擴(kuò)展性、性價(jià)比方面已不再適用騰訊業(yè)務(wù)爆發(fā)式的增長。面對(duì)這種變化,騰訊大數(shù)據(jù)轉(zhuǎn)向分布式,基于開源的Hadoop體系,構(gòu)建了騰訊第一代大數(shù)據(jù)平臺(tái),并建設(shè)離線計(jì)算平臺(tái),主要發(fā)力規(guī)模化。騰訊大數(shù)據(jù)由此進(jìn)入第一階段。三年里,騰訊實(shí)現(xiàn)了從關(guān)系型數(shù)據(jù)庫到自建大數(shù)據(jù)平臺(tái)的全面遷移,到2012年,騰訊大數(shù)據(jù)的單集群規(guī)模突破了4400臺(tái)。
2012年,移動(dòng)互聯(lián)網(wǎng)爆發(fā),應(yīng)對(duì)業(yè)務(wù)數(shù)據(jù)統(tǒng)計(jì)及時(shí)性、快速性的需求,騰訊大數(shù)據(jù)從Hadoop轉(zhuǎn)向Spark和Storm體系,在吸收開源技術(shù)的基礎(chǔ)上,結(jié)合騰訊自身的需求進(jìn)行重寫,探索流式計(jì)算、秒級(jí)采集系統(tǒng)的建設(shè),構(gòu)建企業(yè)級(jí)的實(shí)時(shí)數(shù)據(jù)分析體系,騰訊大數(shù)據(jù)發(fā)展進(jìn)入第二階段。
2015年至今,騰訊大數(shù)據(jù)邁入了第三階段。隨著數(shù)據(jù)挖掘、數(shù)據(jù)應(yīng)用的深入,騰訊大數(shù)據(jù)再次自我迭代,于2016年推出了自研機(jī)器學(xué)習(xí)平臺(tái)Angel,專攻復(fù)雜計(jì)算場景,可進(jìn)行大規(guī)模的數(shù)據(jù)訓(xùn)練,支撐內(nèi)容推薦、廣告推薦等AI應(yīng)用場景。它由騰訊與北京大學(xué)聯(lián)合研發(fā),兼顧了工業(yè)界的高可用性和學(xué)術(shù)界的創(chuàng)新性。
據(jù)騰訊Angel開發(fā)負(fù)責(zé)人肖品介紹,騰訊Angel從騰訊海量業(yè)務(wù)場景中而來,是超大樣本和超高維度的機(jī)器學(xué)習(xí)平臺(tái)。如今,Angel已在QQ、微信支付、騰訊廣告、騰訊視頻等騰訊旗下產(chǎn)品中廣泛應(yīng)用,并向微眾銀行等行業(yè)合作伙伴全面開放,普遍適用于智能推薦、金融風(fēng)險(xiǎn)評(píng)估等圖計(jì)算業(yè)務(wù)場景。
2017年,騰訊Angel就正式開源。2018年8月,騰訊將Angel捐贈(zèng)給Linux旗下專注人工智能的LF AI基金會(huì),結(jié)合基金會(huì)成熟的運(yùn)營,全面升級(jí)的 Angel與國際開源社區(qū)深入互動(dòng),致力于讓機(jī)器學(xué)習(xí)技術(shù)更易于上手研究及應(yīng)用。