新一代計算平臺Dataworks 會成為阿里計算引擎的“聚寶盆”嗎?
記者在云棲大會現(xiàn)場參加了一場計算智能峰會,對阿里巴巴的計算引擎系統(tǒng)產(chǎn)生了極大的興趣。除去現(xiàn)場聆聽阿里巴巴集團副總裁周靖人、阿里巴巴研究員&PAI平臺負(fù)責(zé)人林偉、阿里巴巴資深技術(shù)專家&Dataworks負(fù)責(zé)人徐晟、阿里巴巴研究員&Maxcompute負(fù)責(zé)人關(guān)濤、阿里巴巴研究員&實時計算負(fù)責(zé)人蔣曉偉等五人的演講,更是在會后對其進行了深度采訪。在整個對話交流中,對阿里巴巴的新一代計算引擎有了全局的掌握。
我們了解到,阿里巴巴計算平臺的新一代計算引擎,支撐了整個阿里經(jīng)濟體90%以上的結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的存儲、交換、管控,數(shù)據(jù)規(guī)模已超EB級別。其中:
MaxCompute 是阿里巴巴自主研發(fā)的大數(shù)據(jù)計算引擎,在阿里集團歷屆雙11海量數(shù)據(jù)的大規(guī)模并行計算中,在高并發(fā)、吞吐量等各方面承受住了大規(guī)模計算的考驗,在2015年Sort BenchMark排序競賽中,一舉打破四項世界紀(jì)錄,奠定了阿里集團大數(shù)據(jù)離線計算引擎的地位;
Blink作為Flink的演進版本,是阿里集團最新一代實時計算引擎,提供了流式數(shù)據(jù)計算能力,能夠支持百萬級吞吐量的作業(yè),計算可達秒級延遲,關(guān)鍵指標(biāo)超越開源Storm性能6到8倍,計算成本遠低于開源軟件。自2017年以來,經(jīng)歷了雙11實時業(yè)務(wù)數(shù)據(jù)復(fù)雜分析考研的Blink已成為阿里集團最重要的實時計算引擎。
PAI是阿里巴巴機器學(xué)習(xí)平臺,無縫對接了強大的計算引擎及大數(shù)據(jù)研發(fā)平臺,具備超大規(guī)模稀疏模型的CPU系統(tǒng)級優(yōu)化、大規(guī)模圖像&語音&文本領(lǐng)域的GPU系統(tǒng)級優(yōu)化、在線推理加速需求的模型壓縮等核心能力,支持在線學(xué)習(xí)、深度學(xué)習(xí)、增強學(xué)習(xí)及遷移學(xué)習(xí)等多種學(xué)習(xí)方式。
而現(xiàn)場,阿里巴巴展示了新一代計算引擎,布局整個大數(shù)據(jù)和AI生態(tài)鏈,這就是DataWorks。有個很形象的比喻是:如果把MaxCompute 、Blink、PAI等類比為一臺PC的CPU、GPU、SSD等硬件設(shè)備,那么DataWorks就是這臺大數(shù)據(jù)PC的Windows操作系統(tǒng)??梢姡珼ataWorks是對計算引擎整體上進行了封裝。
據(jù)了解,實際上,DataWorks這個項目早在2009年就已啟動,到目前已經(jīng)成為阿里集團數(shù)據(jù)開發(fā)的標(biāo)準(zhǔn)平臺,支撐著阿里集團、螞蟻金服、菜鳥、優(yōu)酷、高德等所有事業(yè)部的數(shù)據(jù)開發(fā)任務(wù)。
進入公共云市場,要前推到2013年,那時候DataWorks系列產(chǎn)品在全世界16個國家和地區(qū)實現(xiàn)部署可用,包括新加坡、悉尼、香港、德國、馬來西亞、日本、美國等。當(dāng)然也在國際上攬獲了一系列獎項,比如2017年,以DataWorks為主體的阿里云數(shù)加,獲得了國際軟博會金獎;2018年,DataWorks名列國家大數(shù)據(jù)博覽會十佳產(chǎn)品,榮獲最佳案例實踐獎;在2018國際權(quán)威評測機構(gòu)Forrester公布的Cloud Data Warehouse第二季度的榜單上,代表阿里云,攜手MaxCompute,獲得了世界排名第二的成績。
在對話交流環(huán)節(jié),就業(yè)界關(guān)心的話題向5位平臺負(fù)責(zé)人進行了提問,以下為對話實錄,做了不改變原意的編輯與整理:
提問:Dataworks對計算引擎做歷史傳承,有何目的?
周靖人(阿里巴巴集團副總裁):阿里巴巴從2008年、2009年就開始做大數(shù)據(jù)和云計算,之前都是為了支撐核心的電商業(yè)務(wù),也是隨著阿里巴巴的業(yè)務(wù),大數(shù)據(jù)的平臺得到了高速的發(fā)展,這個平臺也就是Maxcompute的前身。其實今天所發(fā)布的所有的計算引擎包括Maxcompute、Blink、PAI、Dataworks,都不是簡簡單單一個產(chǎn)品,首先都是在阿里巴巴自身的業(yè)務(wù)場景里面取得了巨大的成功,也是幫助整個業(yè)務(wù)發(fā)展起到了一個至關(guān)重要的作用。
經(jīng)過這么大的業(yè)務(wù)體量高強度的驗證過后,我們也希望把同樣的技術(shù)普惠到全球,特別是中國的企業(yè)用戶,所以才把這些產(chǎn)品通過阿里云的方式對外輸出,去服務(wù)各行各業(yè)的企業(yè)用戶。所以從歷史來講,因為至少在中國,阿里云整個計算平臺應(yīng)該是歷史最悠久,當(dāng)然可以說也是技術(shù)積累最深,同時也是經(jīng)受住了非常大的業(yè)務(wù)考驗,具有真正企業(yè)級服務(wù)能力的大數(shù)據(jù)的智能計算平臺。
提問:產(chǎn)品的發(fā)布看似順理成章,實際上最難點在于?
周靖人:每個業(yè)務(wù)都有不同的計算引擎,導(dǎo)致很多不同業(yè)務(wù)采取的計算方案還是有一些不一樣。隨著阿里巴巴整個業(yè)務(wù)的體量發(fā)展,隨著整個核心技術(shù)的研發(fā),整個阿里巴巴集團也越來越體會到我們今天需要有一個統(tǒng)一、高效的計算平臺,會支持各種的計算模式,而不是單一的引擎。難點在于,怎么樣保證高性能、效率、功能和穩(wěn)定性,甚至安全等等。
我們也非常清楚整個大數(shù)據(jù)以及人工智能的開發(fā),不是簡簡單單只包含了一些引擎的優(yōu)化,整個的流程是非常長的。訓(xùn)練一個模型,不是說模型就不變了,很多時候是因為所有的應(yīng)用各方面不斷產(chǎn)生數(shù)據(jù),新的數(shù)據(jù)會給我們帶來一些新數(shù)據(jù),我們也會通過一些新的數(shù)據(jù)來修正我們之前的模型,同時修正的模型也能實時去進行發(fā)布,中間的每一步都至關(guān)重要。
提問:計算平臺會隨著阿里云的全球化而全球化?
周靖人:是的,也就是說我們今天為中國公司的業(yè)務(wù)國際化提供了一個堅實的基礎(chǔ)。隨著他們的業(yè)務(wù)發(fā)展,其實他們并不需要擔(dān)心是不是到了另外一個國家,是否需要把整個應(yīng)用移植到另外一個平臺。今天隨著阿里云的成長,有了成熟的技術(shù),他們可以使用同樣一個引擎,能夠在不深度變化他們的APP,就可以很快把他的業(yè)務(wù)拓展到海外,我覺得這都是我們整個計算平臺、阿里云云基礎(chǔ)建設(shè)給用戶提供的巨大的優(yōu)勢。
提問:做一站式平臺,是否意味著目前第三方的IT外包公司就會消失?
周靖人:恰恰相反。阿里巴巴提供的是一個基礎(chǔ)的開發(fā)的環(huán)節(jié),今天還需要大量甚至更多的第三方公司在上面,根據(jù)他們的業(yè)務(wù)特征、業(yè)務(wù)專長去搭建更專業(yè)的平臺、更專業(yè)的引擎。我也相信由于云計算、大數(shù)據(jù)的發(fā)展,今天其實跟第三方的公司會促成更大的機遇。因為有了這樣一個云平臺,有了這樣一個大數(shù)據(jù)的系統(tǒng),我們的合作伙伴真正意義上有了機會接觸更大的用戶群體。
提問:機器學(xué)習(xí)領(lǐng)域,在充分訓(xùn)練的前提下,是不是深度學(xué)習(xí)網(wǎng)絡(luò)參數(shù)越多,數(shù)據(jù)量越大,效果就越好?
林偉(阿里巴巴研究員、PAI平臺負(fù)責(zé)人):不是的。模型越大參數(shù)越多,其實會造成更多的問題——因為參數(shù)表達能力空間更大。這就是為什么我們在訓(xùn)練的時候要控制一些參數(shù)規(guī)模。因為機器學(xué)習(xí)是捕獲背后的邏輯關(guān)系,但是它的邏輯關(guān)系從真實和自然來說不會有那么多。如果一個很大的參數(shù),理論上其實是在違背它的自然規(guī)律。所以并不是數(shù)據(jù)越多就越好。
但為什么深度學(xué)習(xí)最近這么熱?是因為有很多潛在的關(guān)系,人是看不到的,所以它通過一個很深度的網(wǎng)絡(luò),通過數(shù)據(jù)的能力,可能原來達不到的好效果,現(xiàn)在就能達到了。但大家不要忽略了數(shù)據(jù)。我們做機器學(xué)習(xí)的都知道數(shù)據(jù)最關(guān)鍵,如果數(shù)據(jù)都是一些不準(zhǔn)確的數(shù)據(jù),那是無法訓(xùn)練出一個靠譜的模型。
提問:阿里為什么會選擇Flink作為新一代流式計算引擎?Flink目前有哪些核心的技術(shù)值得外界關(guān)注?
蔣曉偉(阿里巴巴研究員、實時計算負(fù)責(zé)人):2013年之前我們開始Flink項目,調(diào)研了業(yè)界所有的計算引擎,當(dāng)時的目標(biāo)不是簡單選一個流計算的引擎,我們只想選一個通用引擎,我們堅信在不同的計算模式下,有一個東西能支持多種計算場景。但由于很多流計算引擎需要你在延遲和吞吐之間做一定的取舍,所以在本質(zhì)上流計算引擎是不可能做到最優(yōu)的,特別是在對延遲要求比較高的時候,它是很難滿足這種需求。所以這時候我們開始調(diào)研其他的各種引擎。經(jīng)過調(diào)研之后,我們覺得Flink價格最符合我們的理念。
Flink的出發(fā)點跟spark正好相反,它是把流計算當(dāng)做基礎(chǔ),能夠?qū)崿F(xiàn)連續(xù)處理。這樣的批處理用流計算來做(注:批處理和流處理基本的區(qū)別在于每一條新數(shù)據(jù)在到達時是被處理的,還是作為一組新數(shù)據(jù)的一部分稍后處理。批處理指稍后執(zhí)行,流處理指立即執(zhí)行)。Flink這種價格能夠長期讓我們在流計算和批處理做到非常完善,所以我們決定用Flink。
過去三四年時間里,我們在Flink引擎上做了非常多的投入:Flink的多版性能改進、引入新的價格、共享更好的代碼等等。在阿里內(nèi)部,由于我們有更好、更先進的硬件架構(gòu),我們開始支持存儲分離計算架構(gòu)。在這種架構(gòu)下,流計算引擎在失敗的時候能更快速修復(fù),使我們能夠更加動態(tài)適應(yīng)流量的變化,來更新我們執(zhí)行計劃。
提問:為什么阿里計算引擎今天要做一站式?
徐晟(阿里巴巴資深技術(shù)專家、Dataworks負(fù)責(zé)人):我們希望對用戶來說是一個統(tǒng)一的體驗。至于說用戶要解決的問題,很可能我們下面有不同的引擎來解決不同的問題。因為對于用戶來說,我希望他看到的是一套產(chǎn)品,而不是讓用戶做選擇題。至于用哪種技術(shù),可能對用戶來說就不是那么重要。畢竟對用戶來說,我們看到的是同一個層,我們不希望用戶更多介入怎么解這個問題。
今天用戶如果要做模擬訓(xùn)練還是要做什么事情,我就相應(yīng)給你做事情就好了,至于說代碼最后跑到什么地方,我覺得對用戶來說不太關(guān)注。畢竟,谷歌做AlphaGo不是為了下圍棋,而是證明有能力提供這樣一個平臺來幫大家解決問題。這也是我們的初衷。