雪湖科技FPGA服務(wù)器,“顛覆”傳統(tǒng)芯片參數(shù)
掃描二維碼
隨時(shí)隨地手機(jī)看文章
90年代末21世紀(jì)初,高性能計(jì)算還是一個(gè)陽(yáng)春白雪的行業(yè),項(xiàng)目看起來(lái)都十分前沿和酷炫,但很難創(chuàng)造商業(yè)價(jià)值。張強(qiáng)回憶,“要從科研機(jī)構(gòu)、政府機(jī)構(gòu)手上項(xiàng)目并從中賺錢,一直到回款,整個(gè)過程非常艱難?!?/p>
另一方面,民用市場(chǎng)已經(jīng)成為英特爾奔騰多核處理器的天下,計(jì)算能力是完全溢出的,滿世界的聲音都是——“沒有必要買i7,買個(gè)i3、i5就夠用了”?!霸谶@種背景下,在民用市場(chǎng)上根本是找不到計(jì)算的需求。”張強(qiáng)談道,“所以盡管案例都很有開創(chuàng)性,但項(xiàng)目仍然沒法支撐下去?!?/p>
隨后,張強(qiáng)便投身熱鬧的C端市場(chǎng)。在2014年,和朋友等人一起創(chuàng)辦樂蝸VR,推出基于虛擬現(xiàn)實(shí)技術(shù)的頭盔及軟件應(yīng)用。該公司在2016年年中被華人文化旗下的微鯨收購(gòu)。在微鯨,張強(qiáng)遇到了同為半導(dǎo)體行業(yè)背景,此前在日本富士通擔(dān)任亞太區(qū)市場(chǎng)總經(jīng)理的王韻。
回顧過去十余年的同構(gòu)計(jì)算發(fā)展路線,工藝與應(yīng)用規(guī)模高速發(fā)展,核心架構(gòu)卻沒有發(fā)生太大變化。與此同時(shí),CPU發(fā)展所主要依賴的半導(dǎo)體工藝紅利卻在消失?!澳柖墒Ш驝PU的發(fā)展路線將會(huì)平緩,算力將會(huì)出現(xiàn)缺口,需要GPU、FPGA、ASIC等異構(gòu)芯片去填補(bǔ)?!被谕粋€(gè)判斷,張強(qiáng)和王韻開始了異構(gòu)計(jì)算的創(chuàng)業(yè)征途,并找了曾經(jīng)在超算領(lǐng)域一同打拼的伙伴。
雪湖科技核心團(tuán)隊(duì),從左往右依次是創(chuàng)始人兼CEO 張強(qiáng)、COO 王韻、系統(tǒng)專家 趙小吾、算法專家 楊付收
張強(qiáng)認(rèn)為,基于數(shù)十年的研發(fā)經(jīng)驗(yàn),雪湖團(tuán)隊(duì)對(duì)FPGA的理解更為深刻?!拔覀兪欠浅T缙谝慌完P(guān)注到FPGA應(yīng)用的人,我們了解將算法本身固化到硬件電路將會(huì)對(duì)其執(zhí)行效率帶來(lái)的巨大潛力。并且我們通過早期的大量案例證明了這個(gè)觀點(diǎn)。”
對(duì)于以ASIC為主的另一條AI芯片路線,張強(qiáng)認(rèn)為ASIC芯片面臨的巨大痛點(diǎn)在于攤銷的成本太大。比如,7nm的研發(fā)高達(dá)投入3億美金,至少要百萬(wàn)片的銷量才能攤銷掉高昂的成本。
基于王韻此前在富士通的工作經(jīng)驗(yàn)和資源,雪湖團(tuán)隊(duì)首先從云端計(jì)算應(yīng)用需求強(qiáng)烈的手機(jī)客戶切入。 2017年年中的一次機(jī)會(huì),雪湖團(tuán)隊(duì)向美圖CTO張偉介紹了其基于FPGA的AI算法加速技術(shù)。張偉頗感興趣,次日便從廈門飛到上海與雪湖團(tuán)隊(duì)當(dāng)面交流。
為應(yīng)對(duì)美圖10億級(jí)的在線用戶的實(shí)時(shí)需求,美圖近年來(lái)重點(diǎn)投入研發(fā)力量在神經(jīng)網(wǎng)絡(luò)計(jì)算加速領(lǐng)域,特別設(shè)立美圖影像實(shí)驗(yàn)室MT Lab,在算法層面取得一定突破。但如何將算法以較低成本移植到芯片上是當(dāng)時(shí)面臨的一大難題。
在了解到美圖的具體需求后,雪湖團(tuán)隊(duì)開始全力投入推進(jìn)CNN加速接解決方案。與此同時(shí),雪湖科技的公司設(shè)立和團(tuán)隊(duì)組建等工作也開始有條不紊地展開。今年6月,美圖的FPGA加速神經(jīng)網(wǎng)絡(luò)計(jì)算項(xiàng)目正式落地。
雪湖科技FPGA服務(wù)器
該方案正在逐步替代美圖云計(jì)算中心的昂貴且大功耗的GPU服務(wù)器。張強(qiáng)介紹,“英偉達(dá)的數(shù)據(jù)中心GPU平均在1萬(wàn)美金左右,算力約為35T;我們即將要升級(jí)的服務(wù)器1U算力能達(dá)到400T,成本只要3000美金?!?/p>
目前,雪湖團(tuán)隊(duì)規(guī)模約為20人左右,定位于為上下游賦能,上游對(duì)接FPGA芯片廠商,同時(shí)連接下游的應(yīng)用廠商。年初,雪湖獲得美圖天使輪數(shù)百萬(wàn)投資,正在推進(jìn)Pre-A輪融資階段。
“顛覆”傳統(tǒng)芯片參數(shù)
“算力只是一個(gè)間接指標(biāo),”張強(qiáng)說道。
在算力堪比“石油”燃料的AI時(shí)代,一款芯片的算力指標(biāo)顯然已經(jīng)成為最核心的參考因素。算力,即單位時(shí)間內(nèi)芯片所能提供浮點(diǎn)計(jì)算能力的峰值。理論上看,當(dāng)芯片設(shè)計(jì)完,算力就已經(jīng)固定,不會(huì)根據(jù)應(yīng)用場(chǎng)景發(fā)生變化。
但在張強(qiáng)團(tuán)隊(duì)看來(lái),一顆芯片在不同應(yīng)用場(chǎng)景下提供的算力有所不同,比如計(jì)算密集型,I/O密集型的不同需求下數(shù)值差異很大。 “現(xiàn)在大部分AI芯片公司都在偷換概念,對(duì)外宣傳的都是算力峰值”,王韻談道,就像是眼睛一閉油門踩到底能跑出的最快速度,但是缺少實(shí)際參考價(jià)值。通常來(lái)說,由于實(shí)際部署下的各種原因,芯片遠(yuǎn)不能達(dá)到其計(jì)算能力的最高理論值。
對(duì)于雪湖團(tuán)隊(duì)而言,他們更看重芯片的資源利用率。對(duì)于一顆FPGA而言,在核心計(jì)算單元運(yùn)行算法時(shí),如果從啟動(dòng)一直到運(yùn)算結(jié)束的每個(gè)使用周期都在不停的工作即芯片的理論值,相當(dāng)于100%的工作狀態(tài),也就是說把該芯片所有的功力都發(fā)揮出來(lái)了。
“我們能將這個(gè)理論率提升到98%,換句話說,100個(gè)計(jì)算周期里只有兩個(gè)周期在休息?!睆垙?qiáng)說道 “這顛覆了芯片行業(yè)里的一個(gè)標(biāo)志性參數(shù)。除了雪湖,沒有任何一家公司可以做到。”王韻形象地將描述為“完美地榨干芯片性能。”
“98%資源利用率”所能帶來(lái)的實(shí)際價(jià)值是——“通常需要賽靈思最高端、售價(jià)超過1萬(wàn)美金的芯片才能實(shí)現(xiàn)復(fù)雜的算法。雪湖可以采用10到20元美金的中低端芯片實(shí)現(xiàn)同樣算法?!睆垙?qiáng)表示,1萬(wàn)美金與20美金的核心指標(biāo)差異就在其內(nèi)部可利用的資源數(shù)目。
長(zhǎng)久以來(lái),開發(fā)難度大、開發(fā)周期長(zhǎng),開發(fā)者稀缺、培養(yǎng)周期長(zhǎng)是橫亙?cè)贔PGA發(fā)展和應(yīng)用推廣道路上的難題?!癋PGA工程師的培養(yǎng)成本很高,要培養(yǎng)一名真正具備獨(dú)立做FPGA開發(fā)的工程師通常需要五年的時(shí)間?!睆垙?qiáng)談道。
為此,雪湖團(tuán)隊(duì)研發(fā)了一套私有的開發(fā)環(huán)境和框架PteroTool,以實(shí)現(xiàn)更簡(jiǎn)潔的芯片工具鏈條,抽象度更高的應(yīng)用層。
“這是基于我們十幾年的積累,里邊包括了大量高效穩(wěn)定、占用資源很少的庫(kù)?!睆垙?qiáng)介紹,基于Ptero系統(tǒng)抽象層,能夠?qū)⑾到y(tǒng)抽象出來(lái),類似于芯片操作系統(tǒng),以實(shí)現(xiàn)算法快速移植,可以從一顆芯片快速移植到另一顆FPGA芯片?!斑@套工具體系很容易上手。按照我們的經(jīng)驗(yàn),經(jīng)過三個(gè)月培訓(xùn),一個(gè)剛畢業(yè)的大學(xué)生就上手成為FPGA算法開發(fā)工程師?!?/p>
為了對(duì)開發(fā)工作進(jìn)行更加細(xì)致地分工,雪湖對(duì)開發(fā)過程進(jìn)行了系統(tǒng)化地分解。在雪湖的技術(shù)架構(gòu)下,工程師不再需要同時(shí)掌握FPGA開發(fā)、寫算法和代碼等全鏈條工作,“每人掌握一個(gè)環(huán)節(jié),通過多人合作,以實(shí)現(xiàn)更高效地開發(fā)?!?/p>
預(yù) 判
“我們目前集中私有云、公有云、車載三大塊市場(chǎng)。模塊市場(chǎng)優(yōu)先級(jí)被調(diào)低了,因?yàn)槟壳癆I在C端市場(chǎng)仍然缺少應(yīng)用推動(dòng)?!睆垙?qiáng)談道。
在云計(jì)算中心市場(chǎng),雪湖主要通過私有云GPU替代、FPGA公有云加速兩條路徑推動(dòng)。對(duì)于圖像與語(yǔ)音數(shù)據(jù)調(diào)用頻繁的AI公司而言,相較于公有云數(shù)據(jù)可能面臨的安全性問題,搭建一套高性價(jià)比的私有云方案正在成為核心訴求。
隨著5G落地步伐的加速,張強(qiáng)認(rèn)為,云上的計(jì)算需求和市場(chǎng)會(huì)會(huì)變得更加龐大。受到4G的傳輸速率和網(wǎng)絡(luò)承受力限制,目前很多計(jì)算主要在手機(jī)端/在端測(cè)完成。但是5G來(lái)臨之后,傳輸速率提升十倍以上,手機(jī)本地的計(jì)算能力會(huì)弱化,存儲(chǔ)會(huì)變大;通信能力會(huì)變強(qiáng)。
在雪湖團(tuán)隊(duì)與OPPO、美圖等主流手機(jī)廠商交流過程中,比較一致的觀點(diǎn)認(rèn)為,5G時(shí)代云端的數(shù)據(jù)中心計(jì)算需求,特別是人工智能運(yùn)算需求將呈現(xiàn)井噴趨勢(shì)。相應(yīng)地,將AI芯片塞到手機(jī)的潮流可能弱化。
此外,正處于窗口期的汽車智能化也是雪湖現(xiàn)階段押下重注的市場(chǎng)?!拔覀兊膬?yōu)勢(shì)在于技術(shù)方案能夠更快地落地,以幫助車廠或者自動(dòng)駕駛團(tuán)隊(duì)搶奪時(shí)間窗口”,張強(qiáng)認(rèn)為,相比ASIC的AI芯片公司開發(fā)和流片通常需要一到兩年時(shí)間,快速落地是雪湖當(dāng)下最顯著的優(yōu)勢(shì)。
此外,一個(gè)更為隱形的優(yōu)勢(shì)還在于,F(xiàn)PGA具備現(xiàn)成的車規(guī)級(jí)芯片可供選擇,而無(wú)需等待遙遙無(wú)期的AI芯片通過車規(guī)級(jí)芯片認(rèn)證。
目前,雪湖團(tuán)隊(duì)正在幫助一家自動(dòng)駕駛公司實(shí)現(xiàn)前端的視覺數(shù)據(jù)識(shí)別與分析,以取代昂貴和高功耗的GPU服務(wù)器方案。張強(qiáng)表示,該自動(dòng)駕駛公司近期再次提速研發(fā)節(jié)奏,“年初方案一旦能夠落地,將成為開創(chuàng)性的自動(dòng)駕駛解決方案?!?em class="backsohu">