馬里亞納,OPPO先身探索
近日,OPPO在今年的INNO DAY活動(dòng)上發(fā)布了第一款自研芯片——馬里亞納X( MariSilicon X)。這是一款NPU芯片,但非通常意義上的NPU,而是專(zhuān)門(mén)用于影像處理的NPU芯片。 這不僅是一款性能參數(shù)超強(qiáng)的芯片,更是手機(jī)的計(jì)算影像邁入“一機(jī)雙芯”時(shí)代的開(kāi)啟?!?strong>SoC+影像專(zhuān)用NPU”的雙芯方案會(huì)帶來(lái)手機(jī)影像Pipeline管線(xiàn)上全鏈條的最優(yōu)解,實(shí)現(xiàn)軟件AI算法和硬件計(jì)算資源的緊密耦合,突破旗艦手機(jī)的影像體驗(yàn)。
先來(lái)看一下MariSilicon X的表現(xiàn),據(jù)OPPO介紹有四大特點(diǎn):
?AI能效突破:18TOPS AI算力;11.6TOPS/w能效比。(參考蘋(píng)果A15的NPU算力為15.8TOPS;運(yùn)行同樣的OPPO的AI降噪算法的速度是搭載驍龍888的Find X3 Pro的20倍,能效比達(dá)到40倍。)
?20bit Ultra HDR:覆蓋100萬(wàn):1的最大亮度范圍,是目前行業(yè)主流HDR能力(驍龍8、天璣9000)4倍
?實(shí)時(shí)RAW處理:支持20bit RAW計(jì)算,計(jì)算前置為整個(gè)影像鏈路帶來(lái)無(wú)損的高質(zhì)量數(shù)據(jù),基礎(chǔ)畫(huà)質(zhì)的提升、預(yù)覽即成像、三方App畫(huà)質(zhì)提升
?RGBW Pro模式:雙鏈路的設(shè)計(jì)和2x RAW計(jì)算,實(shí)現(xiàn)8.6dB的信噪比和1.7倍解析力提升
通過(guò)這些強(qiáng)大的特性加持,MariSilicon X大幅提升了夜景視頻拍攝的畫(huà)質(zhì),將計(jì)算影像推向了4K+20bit RAW+AI+Ultra HDR的新極限。
實(shí)現(xiàn)如此強(qiáng)大性能的背后,究竟有哪些奧秘?我們接下來(lái)一起來(lái)解析下MariSilion X的內(nèi)“芯”。
MariSilicon X:一顆影像處理專(zhuān)用NPU芯片
MariSilicon X采用的是自研DSA架構(gòu),其中包含多個(gè)IP:有自研NPU IP—MariNeuro、自研ISP IP—MariLumi、自研MIPI接口IP、Arm控制IP以及自主設(shè)計(jì)的雙層內(nèi)存系統(tǒng)等。
MariLumi主要進(jìn)行圖像信號(hào)的降噪和HDR處理,MariNeuro主要負(fù)責(zé)AI降噪算法加速,自研MIPI用于對(duì)接各種圖像傳感器,包括OPPO和Sony定制的傳感器,Arm控制IP主要用于IO口控制等,雙層內(nèi)存架構(gòu)用于內(nèi)部數(shù)據(jù)搬運(yùn)。
NPU core:MariNeuro
對(duì)于計(jì)算影像應(yīng)用而言,算力自然是越高越好。但受限于手機(jī)的外形和當(dāng)下的電池能量密度,所以對(duì)于這顆NPU的功耗也有著嚴(yán)格的要求,不能單純追求算力高,對(duì)于能效的控制反而更為關(guān)鍵。OPPO在最開(kāi)始產(chǎn)品定義的時(shí)候就充分考慮了,將該NPU的功耗限制在手機(jī)功率約束范圍內(nèi),在這個(gè)限制內(nèi)進(jìn)行整體的架構(gòu)設(shè)計(jì)。
“手機(jī)上一顆NPU設(shè)計(jì)的關(guān)鍵難點(diǎn)不在于算力。因?yàn)榭梢酝ㄟ^(guò)增加面積,把算力堆起來(lái),但達(dá)到11.6 TOPS/w要難的多。”O(jiān)PPO 芯片產(chǎn)品高級(jí)總監(jiān)姜波表示,“有一個(gè)NPU不難,但這個(gè)NPU真的能用到那個(gè)應(yīng)用場(chǎng)景,在這個(gè)應(yīng)用場(chǎng)景算法約束的情況下達(dá)到這樣的能耗效率,是非常難的。”
如何理解“應(yīng)用場(chǎng)景算法約束下達(dá)到這樣的能耗效率”這一點(diǎn)呢?以Find X3 Pro舉例,雖然搭載的驍龍888平臺(tái)上NPU算力很高,但跑OPPO的AI降噪算法最大只能跑到2幀,功耗達(dá)到1.7W?!?幀”只能應(yīng)用在拍照上,遠(yuǎn)遠(yuǎn)達(dá)不到30fps的視頻拍攝最低門(mén)檻。如果將算力提高到30fps的水平,功耗也會(huì)是1.7W的數(shù)倍,這完全超出了手機(jī)的能耗約束水平。
而在OPPO自研的MariNeuro NPU上,可以在800mW的功耗約束范圍內(nèi)達(dá)到40fps的水平。既然視頻拍攝30fps就已經(jīng)足夠,為何要做到40fps?姜波表示,4K 30fps只是一個(gè)基礎(chǔ)的要求,為了提供更好的影像效果,比如在夜景錄制的場(chǎng)景下,要在開(kāi)啟AI降噪同時(shí)開(kāi)啟HDR,這時(shí)就需要更多的算力,并且SoC中也會(huì)激活一些算力,這時(shí)候整體功耗就會(huì)提高。在這種場(chǎng)景下,考慮了整個(gè)鏈路的功耗,所以MariNeuro需要在30fps 800mW的表現(xiàn)上有足夠的冗余的性能,因此最終在800mW的功耗約束范圍上達(dá)到40fps水平。如果不開(kāi)啟AI降噪,實(shí)時(shí)拍攝4K 60幀的HDR視頻也毫無(wú)壓力。
ISP core:MariLumi
MariSilicon X上搭載的自研ISP IP-MariLumi主要功能是HDR和降噪,采用雙鏈路的設(shè)計(jì)和2路20bit實(shí)時(shí)RAW計(jì)算,配合NPU的加速達(dá)到了120dB的降噪水平,開(kāi)啟RGBW Pro模式可以實(shí)現(xiàn)8.6dB的信噪比提升。
20bit-120dB意味著對(duì)于一張圖片而言,最亮和最暗的部分相差100萬(wàn)倍。參考當(dāng)前的旗艦SoC(高通驍龍8 gen1和天璣9000)都是將計(jì)算位數(shù)提高到了18bit,圖片信噪比做到25萬(wàn)倍左右。OPPO通過(guò)新增MariSilicon X這一顆芯片,將手機(jī)影像處理的效果突破了旗艦SoC的設(shè)定的極限。
在OPPO的測(cè)試平臺(tái)上進(jìn)行對(duì)比,在4K場(chǎng)景下有MariSilicon X加持的圖形亮部可以達(dá)到了8dB增益,圖形暗部增益可以達(dá)到12bit,也就是8倍提升。
為了實(shí)現(xiàn)影像體驗(yàn)突破,從最前端圖像傳感器這一層面上,OPPO此前就與索尼進(jìn)行了深度傳感器定制。但例如RGBW這種類(lèi)型的定制傳感器,整體行業(yè)應(yīng)用量較少,所以SoC廠(chǎng)商并沒(méi)有做到最好的適配。需要傳感器端將RGBW信息轉(zhuǎn)換成傳統(tǒng)RGGB信息,然后傳到SoC進(jìn)行處理。但這一轉(zhuǎn)換過(guò)程中就會(huì)造成有用信息的丟失,因此無(wú)法發(fā)揮出RGBW定制傳感器的最佳效果。MariSilicon X就起到了很好的承上啟下的紐帶作用,通過(guò)雙路超采樣pipeline(RGB+W),與前端的傳感器實(shí)現(xiàn)了緊密耦合,直接在RAW域上進(jìn)行實(shí)時(shí)計(jì)算。這樣既保證了發(fā)揮定制RGBW傳感器的最佳效果,也優(yōu)化了整體處理鏈路的計(jì)算資源分配。
雙層內(nèi)存系統(tǒng)
MariSilicon X是一個(gè)算法與硬件緊密耦合的芯片,因此片上內(nèi)存的設(shè)計(jì)和大小也都是根據(jù)應(yīng)用場(chǎng)景進(jìn)行定制化設(shè)計(jì)的結(jié)果。據(jù)悉其采用256MB的LPDDR4X的內(nèi)存顆粒,是片上獨(dú)立內(nèi)存子系統(tǒng)帶寬,遠(yuǎn)遠(yuǎn)大于傳統(tǒng)的DDR讀寫(xiě)速度,可以實(shí)現(xiàn)Tb級(jí)讀寫(xiě)速度,提供8.5GB/s的影像專(zhuān)用帶寬,為AI的高效運(yùn)算提供充分的內(nèi)存讀寫(xiě)支持。
據(jù)姜波介紹:“對(duì)于NPU和AI處理而言,因?yàn)槭且粚訉佑?jì)算的,所以有大量中間的運(yùn)算數(shù)據(jù)。如果來(lái)回在DDR上進(jìn)行搬運(yùn),就無(wú)法達(dá)成需要的目標(biāo)。 ”
6nm臺(tái)積電制程
為了將整顆NPU的功耗控制在手機(jī)功耗水平之內(nèi),OPPO選擇了臺(tái)積電的6nm工藝制程,這是臺(tái)積電第一個(gè)主流的采用EUV的制程。據(jù)姜波分享,在早期評(píng)估階段,在OPPO想要的芯片表現(xiàn)的需求上,必須上到6nm才能滿(mǎn)足。在6nm的工藝節(jié)點(diǎn)上進(jìn)行芯片設(shè)計(jì),尤其是這么多自研IP的設(shè)計(jì),本身也面臨了非常多的挑戰(zhàn)。但最終出來(lái)的成片效果非常理想,功耗表現(xiàn)等都與最初的設(shè)想相匹配。
一機(jī)雙芯:拉出影像鏈上第二條性能上升曲線(xiàn)
目前常規(guī)的影像處理鏈條是“圖像傳感器采集信號(hào)??SoC中的ISP進(jìn)行信號(hào)處理??顯示”,計(jì)算影像的算法跑在SoC上,所以追求更好效果的方式是SoC廠(chǎng)商迫近更高的影像處理極限,圖像傳感器也迫近更好的性能。但這里面存在著一些難以突破的限制:SoC廠(chǎng)商把握不準(zhǔn)用戶(hù)場(chǎng)景需求,定制傳感器和SoC無(wú)法完美配合,終端廠(chǎng)商的定制算法與SoC硬件資源無(wú)法緊密耦合...在OPPO追求極致用戶(hù)影像體驗(yàn)的路上——后端上優(yōu)化和積累算法、在最前端傳感器定制,但不管怎么,都無(wú)法突破現(xiàn)在這條影像處理鏈上的掣肘。
手機(jī)計(jì)算影像的時(shí)代,軟硬件的緊密耦合才能發(fā)揮出最佳效果。所以O(shè)PPO的MariSilicon X出現(xiàn)了,影像鏈變成了“傳感器??影像專(zhuān)用NPU??SoC??顯示”,在NPU上追求算法和硬件的緊密耦合,這是一條新的性能上升曲線(xiàn)的出現(xiàn)。
計(jì)算重心前置的價(jià)值
首先,新增的MariSilicon X作為影像專(zhuān)用NPU,釋放了原先后端SoC中的影像處理和計(jì)算壓力,將計(jì)算中心前置。另外MariSilicon X將除了HDR AI降噪之外的復(fù)雜算法都在RAW上實(shí)時(shí)處理,這種處理的前移進(jìn)一步保證了后鏈上接收到的影像質(zhì)量。
據(jù)姜波分享,手機(jī)影像從傳感器進(jìn)入之后,一般是三段式,從RAW到RGB到Y(jié)UV,其實(shí)每一段都有信息損耗,目前傳統(tǒng)的SoC上面都是基于YUV做的,比如降噪、HDR等。在RAW域上對(duì)于傳感器的最原始數(shù)據(jù)進(jìn)行處理,才能達(dá)到最好的效果。MariSilicon X的實(shí)時(shí)RAW處理有著影像線(xiàn)性度、色彩更好的優(yōu)勢(shì),可以保持更多原始信息,實(shí)現(xiàn)更高的處理效果。OPPO的芯片設(shè)計(jì)團(tuán)隊(duì)在最初定義這顆芯片時(shí)候,就充分考慮了定制化NPU芯片與OPPO定制sensor有一個(gè)最緊密的耦合、最大限度的優(yōu)化。
“通過(guò)MariSilicon X這顆影像專(zhuān)用芯片,我們達(dá)成了OPPO的自研算法與OPPO自研芯片的深度耦合,以及作為終端廠(chǎng)商,我們看到了整個(gè)影像鏈 從傳感器的定制開(kāi)始、到傳感器信號(hào)的接收處理、再到圖像處理鏈條的優(yōu)化,讓算法在NPU上做到性能的最大化和最優(yōu)化,這是一種非常深入的垂直整合,相信這也是OPPO作為手機(jī)終端廠(chǎng)商可以達(dá)到的差異化的點(diǎn)?!?/p>
推動(dòng)行業(yè)前進(jìn)的意義
MariSilicon X是OPPO在自己當(dāng)下行業(yè)位置上能夠作出的影像體驗(yàn)最大化的突破。因?yàn)樯袩o(wú)自研SoC,所以無(wú)法直接在SoC中設(shè)計(jì)和調(diào)用NPU和ISP資源來(lái)實(shí)現(xiàn)與前端定制傳感器、終端算法的緊密耦合,實(shí)現(xiàn)軟硬件的最佳協(xié)同來(lái)達(dá)到其所期用戶(hù)體驗(yàn)效果。這種在SoC外掛一個(gè)影像專(zhuān)用NPU的方式,固然會(huì)給終端增加較高成本,但對(duì)于追求用戶(hù)體驗(yàn)的OPPO而言并不介意。
OPPO此舉為行業(yè)中計(jì)算影像的前進(jìn)提供了一種新的技術(shù)路線(xiàn),也只有終端廠(chǎng)商在深入了解了用戶(hù)的發(fā)展需求之后,才可以進(jìn)行這種探索。因?yàn)殡m然成本的增加較高,但相比手機(jī)終端上極致體驗(yàn)提升而言并不為過(guò);相反手機(jī)SoC廠(chǎng)商作為芯片供應(yīng)商,如果進(jìn)行這種細(xì)致的行業(yè)方向探索,試錯(cuò)成本會(huì)較高。
手機(jī)SoC廠(chǎng)商會(huì)不會(huì)后期跟進(jìn)這種思路,直接在SoC中為ISP專(zhuān)門(mén)開(kāi)辟NPU的資源,并且提供與之緊密耦合的算法,達(dá)到目前MariSilicon X芯片新建立的旗艦影像體驗(yàn)?非常有這種可能。但我們認(rèn)為這種可能不會(huì)成為OPPO的顧慮,反而更是一種利好。首先這種集成從系統(tǒng)角度考慮是一種更好的方案,另外這也會(huì)為OPPO帶來(lái)的終端上成本降低。對(duì)于OPPO而言,走到了對(duì)的方向上,走到了行業(yè)的前面,這種意義已經(jīng)足夠。
OPPO新的護(hù)城河顯現(xiàn):真正造芯能力
一提到終端廠(chǎng)商造芯,行業(yè)內(nèi)有一種理所當(dāng)然的看法是——“直接買(mǎi)IP,交給設(shè)計(jì)服務(wù)即可,并沒(méi)什么了不起”。出現(xiàn)這種聲音來(lái)自?xún)蓚€(gè)方面:一是因?yàn)樾酒O(shè)計(jì)的門(mén)檻較高,回報(bào)周期長(zhǎng),終端廠(chǎng)商確實(shí)難以踏入;二是因?yàn)槟壳靶袠I(yè)內(nèi)IP廠(chǎng)商和芯片設(shè)計(jì)服務(wù)已經(jīng)非常成熟,這的確也是行業(yè)內(nèi)不少終端造芯的真實(shí)寫(xiě)照。但經(jīng)過(guò)了對(duì)MariSilicon X芯片的全面了解之后,可以看到OPPO絕非如此。
引用行業(yè)內(nèi)資深人士邵魏博士的一句話(huà):“芯片項(xiàng)目是人類(lèi)歷史上最細(xì)微也是最宏大的工程,研發(fā)投入大,項(xiàng)目收益高,試錯(cuò)成本極高。”一個(gè)芯片需要經(jīng)過(guò)芯片設(shè)計(jì)、晶圓制造、封裝測(cè)試三個(gè)重要的環(huán)節(jié)。如果單純看芯片的設(shè)計(jì),需要經(jīng)過(guò)需求分析??芯片定義??架構(gòu)設(shè)計(jì)??邏輯設(shè)計(jì)??物理實(shí)現(xiàn),以及驗(yàn)證仿真和原型驗(yàn)證等環(huán)節(jié)。不僅如此,在當(dāng)下的芯片產(chǎn)業(yè)中,為了摩爾定律的延續(xù),芯片設(shè)計(jì)者還要與晶圓制造廠(chǎng)、封測(cè)廠(chǎng)也保持密切的合作,將芯片在先進(jìn)節(jié)點(diǎn)和封裝上的實(shí)現(xiàn)。
圖源:極客時(shí)間《說(shuō)透芯片》
為什么說(shuō)OPPO是具備了真正的造芯能力?首先從MariSilicon X這顆芯片整體來(lái)看,這并不是一個(gè)小芯片,其中包含了自研NPU核、ISP的核、Arm核、MIPI核、兩層內(nèi)存架構(gòu)等。雖然實(shí)現(xiàn)的功能看起來(lái)非常聚焦,但體現(xiàn)了OPPO小到IP核、大到SoC的設(shè)計(jì)能力。
最初的產(chǎn)品定義開(kāi)始,姜波認(rèn)為是最難的部分,用戶(hù)痛點(diǎn)、OPPO能力、呈現(xiàn)價(jià)值這三方面需要連起來(lái)做思考。“首先第一步是定位用戶(hù)痛點(diǎn),就是OPPO能做什么,也就是有了這個(gè)技術(shù)之后能給用戶(hù)呈現(xiàn)什么,以及給到用戶(hù)的價(jià)值在哪,這是第一步。而且要看解決用戶(hù)痛點(diǎn)需要的基礎(chǔ)能力是什么,這個(gè)基礎(chǔ)能力其實(shí)涉及方方面面,可能涉及OPPO自己的技術(shù)積累,這個(gè)積累包含硬件設(shè)計(jì)、已有IP、算法,涉及各個(gè)方方面面。能否將這些方面垂直整合起來(lái),實(shí)現(xiàn)至少有一個(gè)點(diǎn)是有突破性的,這個(gè)點(diǎn)對(duì)用戶(hù)有價(jià)值的(這就是技術(shù)演進(jìn)的難點(diǎn))?!?/p>
在產(chǎn)品定義之后,MariSilicon X芯片團(tuán)隊(duì)就比著不同部分功能需求,在市場(chǎng)上找合適參數(shù)的IP。6nm的先進(jìn)制程節(jié)點(diǎn)上不是沒(méi)有相應(yīng)的IP,但經(jīng)過(guò)一番調(diào)研之后,設(shè)計(jì)團(tuán)隊(duì)發(fā)現(xiàn)既有的IP并不能滿(mǎn)足其MariSilicon X芯片在終端層面功耗性能極致的要求。所以不論是NPU、ISP,甚至是MIPI接口,MariSilicon X芯片團(tuán)隊(duì)都進(jìn)行了自主的研發(fā)。但也這就意味著每一個(gè)自研的IP,理論上都要單獨(dú)經(jīng)過(guò)一個(gè)Test chip的驗(yàn)證和流片,以確保其滿(mǎn)足預(yù)先設(shè)想的參數(shù)表現(xiàn)。確認(rèn)自研的各個(gè)IP沒(méi)有問(wèn)題之后,再將所有的IP進(jìn)行布局和RTL綜合,后面才會(huì)進(jìn)行布線(xiàn)、流片和驗(yàn)證的工作。
在6nm的工藝上,針對(duì)每一個(gè)自研IP進(jìn)行流片驗(yàn)證,這本身對(duì)于這顆NPU的設(shè)計(jì)而言就是極大的挑戰(zhàn)。和經(jīng)過(guò)多個(gè)自研IP的流片驗(yàn)證之后,就會(huì)消耗極大的時(shí)間和精力。姜波表示,“如果按照那樣的流程,今天我很難做在這兒跟大家share這個(gè)芯片,我們克服了好多自研上的問(wèn)題,尤其是你跑到一個(gè)更新的工藝制程上,的確是有更多挑戰(zhàn)的,我們對(duì)于自研IP的功耗和性能進(jìn)行了非常精細(xì)的預(yù)研預(yù)判。這里面有很多細(xì)節(jié),這只是其中一個(gè)例子?!?/p>
在芯片制造的過(guò)程中,要實(shí)現(xiàn)一顆成熟的芯片,需要在流片、fix、bug修復(fù)、流片的這一過(guò)程上反復(fù)完善。但據(jù)姜波透露,OPPO的MariSilicon X芯片一次流片就成功了,這也意味著其只花了一次流片費(fèi)用,并沒(méi)有額外的Fix和bug修復(fù)的費(fèi)用。
所以從MariSilicon X的整個(gè)誕生的過(guò)程,我們可以看到OPPO的造芯能力是實(shí)實(shí)在在,已經(jīng)具備了世界一流的專(zhuān)業(yè)系統(tǒng)級(jí)芯片設(shè)計(jì)能力。
現(xiàn)在的先進(jìn)芯片設(shè)計(jì)者不僅要懂芯片設(shè)計(jì),同樣也要在設(shè)計(jì)過(guò)程中保持與IP商、晶圓廠(chǎng)的緊密的配合。這種IP設(shè)計(jì)能力、系統(tǒng)級(jí)芯片設(shè)計(jì)能力、和芯片設(shè)計(jì)上下游的協(xié)作能力,是OPPO有別與其他終端廠(chǎng)商的新的護(hù)城河。
結(jié)語(yǔ)
馬里亞納海溝給人的直觀(guān)感受是“黑”,早在兩年前有媒體爆出OPPO馬里亞納芯片計(jì)劃之時(shí),輿論的解讀通常是“造芯之路的艱難”,“黑漆漆地摸索”。但我們認(rèn)為還有另外兩種解讀的角度:
?“探索”:去沒(méi)有人到過(guò)的地方探索,新的技術(shù),新的可能。這是OPPO作為行業(yè)開(kāi)拓者的責(zé)任,先身探索。
?“更多”:海底蘊(yùn)藏著極多的寶藏,除了MariSilicon X,未來(lái)里還會(huì)有更多的驚喜出現(xiàn),綿源不絕,未來(lái)可期。
最后一塊芯片設(shè)計(jì)能力的拼圖已經(jīng)拼上了,未來(lái)OPPO從用戶(hù)到終端的全鏈條垂直整合的能力,能夠達(dá)到的程度,會(huì)越來(lái)越強(qiáng)。