隨著一代設備的發(fā)布,高通依舊傳承著提前展示最新一代SoC性能的傳統(tǒng)。不過意外的是,高通今年沒有像往常一樣選擇在圣地亞哥總部舉辦活動,而是在CES上公開展示了驍龍855,搶先于三星Exynos 9820讓我們了解其實際表現(xiàn)。
(注:本文內(nèi)容源自Anandtech,翻譯)
自驍龍835開始,高通一直堅持Arm授權(quán)的BoC(Built on ARM Cortex Technology)模式,在公版架構(gòu)的基礎上進行“微調(diào)”,驍龍855也不例外,其使用的Kyro 485核心是基于Cortex A76優(yōu)化定制而來。
既是微調(diào),所做的自然都是小改動,高通也并沒有公開細節(jié),只透露Kyro 485擴充了重排序緩沖區(qū)(CortexA76公版為128條目)、優(yōu)化了預取器并改進了分支數(shù)據(jù)結(jié)構(gòu)。
驍龍855的CPU集群雖然仍使用“4+4”的big.LITTLE配置,但其大核心集群實際上為“1+3”設計, 其中1顆大核使用了更適合高頻率的物理電路設計,最高頻率可達2857MHz,并為其配備了更大的512KB L2緩存;剩余3顆大核心的最高頻率為2439MHz,配備256KB L2緩存。
不過,這個“1+3”大核心集群雖然使用了異步時鐘平面設計,但4顆核心仍然共享相同的電壓平面。為此高通解釋說,這是出于成本、復雜性以及效率之間的折衷,因為增加額外的電壓平面則需增加另一個帶有電感器和電容器的PMIC軌道。
大體來看,Kryo 485可能是高通有史以來性能提升幅度最大的核心,與驍龍845所使用的Kryo 385相比,Kryo 485的性能提升了45%。而與同樣使用了Cortex A76的麒麟980相比,二者的總體性能應處于相仿的水平,高通的“微調(diào)”可能在某些場景下有一定優(yōu)勢,此外他們的緩存/內(nèi)存子系統(tǒng)性能也可能會有一些不同。
本次測試驍龍855所用的是高通最新的驍龍855 QRD平臺(Qualcomm Reference Design,高通參考設計)。不得不說,今年這款QRD是高通歷來最“商業(yè)化”的設計,一改以往“傻大黑粗”的demo風格,如果不是那些標簽,很難讓人聯(lián)想到這只是一個參考平臺。
安兔兔和Geekbench
在硬核測試之前,先來看看常規(guī)的安兔兔和Geekbench。
據(jù)微博知名測評人張威的現(xiàn)場測試,驍龍855在安兔兔中拿到了超過36萬分的成績,是目前安卓陣營絕對的第一名。具體到字項中,驍龍855在CPU項目上與麒麟980不相上下,GPU項目上則看齊蘋果A12 Bionic,大幅領(lǐng)先所有安卓SoC,而UX和MEM受系統(tǒng)影響較大,僅供參考。
Geekbench方面,驍龍855單核成績超過3500分,略微領(lǐng)先麒麟980的3300分,但相比蘋果的A11的4200+和A12的4800+還差的很遠,離使用超強魔改版Exynos M3架構(gòu)的Exynos 9810也還有約300分的差距;多核方面,11000+的分數(shù)已經(jīng)屬于現(xiàn)今手機的最高水平,包括蘋果A12在內(nèi)。
驍龍855的大問題:內(nèi)存延遲
在去年的驍龍845上,高通在緩存和內(nèi)存之間增加了一級3MB系統(tǒng)緩存,為各種IP塊充當SoC范圍的緩沖區(qū),可減少高延遲的內(nèi)存訪問量,從而提高系統(tǒng)效率。不過,系統(tǒng)緩存最出名的應用要屬蘋果的A系列處理器,自A7以來蘋果一直都在使用的這種設計。
高通在驍龍845上引入這樣的設計固然令人興奮,但這也是一把雙刃劍,在減少內(nèi)存訪問量的同時,也使內(nèi)存延遲增加了30%,可能在一定程度上限制了CPU的性能。然鵝高通已經(jīng)確認,驍龍855似乎沒有在這方面做出任何重大改進,其系統(tǒng)緩存的設計與驍龍845中完全相同。
經(jīng)過對緩存/內(nèi)存的測試,可以在對數(shù)圖中看到緩存/內(nèi)存的層次結(jié)構(gòu),并更好的可視化層次結(jié)構(gòu)之間的各種延遲跳轉(zhuǎn):
測試結(jié)果表明,驍龍855相比驍龍845,即便在大約2.8GHz的同頻率下,L2緩存的延遲也有一定改善,而二者的DSU系統(tǒng)緩存均為2MB,延遲也幾乎是相同的,麒麟980的4MB系統(tǒng)緩存雖然更大,但響應時間卻慢了20%。
換成線性圖來看,驍龍855的內(nèi)存延遲確實略低于驍龍845,但不好直接確定是內(nèi)存控制器的改進,也可能是得益于頻率更高的LPDDR4X 2133MHz內(nèi)存。而與麒麟980相比,二者相同規(guī)格的內(nèi)存,但驍龍855的延遲要明顯高于麒麟980。
CPU性能和功耗測試
SPEC2006是一個重要的基準測試軟件,它與其他測試軟件的區(qū)別在于所處理的數(shù)據(jù)集更大更復雜。作為基準測試更有代表性,它可以充分展示微架構(gòu)的更多細節(jié),特別是在內(nèi)存子系統(tǒng)性能方面。
在左側(cè)軸上,條形圖表示給定工作負載下的電能消耗情況,越長的條形意味著消耗的電能越多。條形上的文字標注顯示的是消耗電能的具體數(shù)值(單位為焦),以及測試期間的平均功耗(單位為瓦)。
需要注意的是,驍龍855 QRD平臺的功耗管理可能與正式發(fā)售的手機產(chǎn)品有所不同,本次測試結(jié)果只作為總體參考。
驍龍855的性能非常出色,在SPECint2006測試中,驍龍855的性能相比驍龍845提升了51%,能耗比則提升了39%;在SPECfp2006測試中,驍龍855相比驍龍845的性能提升更大,達到了61%。
而與同樣基于Cortex A76的麒麟980相比,驍龍855也要略勝一籌,在SPECint2006測試中領(lǐng)先4%,在SPECfp2006測試中則領(lǐng)先9%。
對測試成績進行詳細研究后發(fā)現(xiàn),在驍龍855與麒麟980的對抗中,一方面驍龍855的頻率提高了9%,并通過架構(gòu)上的微調(diào)來改善運算效能,另一方面麒麟980則通過更大的系統(tǒng)緩存來改善讀寫效率。
在絕大多數(shù)情況下,兩款處理器都是并駕齊驅(qū),只是在某些特定負載下存在分歧。在不太吃內(nèi)存性能的項目中,驍龍855的頻率優(yōu)勢得以充分發(fā)揮,而在延遲敏感性更高的項目中,這種差異又會縮小甚至逆轉(zhuǎn)。
當然,眾多測試項中也總有幾個例外的,比如462.libquantum測試項,驍龍855領(lǐng)先麒麟980達31%之多,這已經(jīng)不是單純頻率高一點和緩存延遲低一點所能達成的結(jié)果。高通稱這主要是因為其架構(gòu)上的特殊改進,然后又傲嬌的表示不告訴你具體改了哪里~
又比如在458.sjeng項目中,驍龍855的性能落后麒麟980大約13%,這本是一個對分支預測性能敏感的測試項,高通也表示驍龍855在Cortex A76公版的基礎上改進了分支數(shù)據(jù)結(jié)構(gòu),最終結(jié)果卻反而落后于公版。(PS:反向奶?)
再比如429.mcf,這本是一個對內(nèi)存延遲敏感的測試項,但驍龍855的表現(xiàn)卻非常出色,這又一次違背了這違背了驍龍855的內(nèi)存延遲高于麒麟980的前情,莫非是驍龍855延遲更低的系統(tǒng)緩存在此立了一功?
SPECfp2006測試結(jié)果也大體上差不多,在部分測試項中驍龍855比麒麟980更塊,尤其是447.dealII和453.povray這兩項,領(lǐng)先幅度達到了17%和22%;而在另一部分對內(nèi)存敏感的項目中,驍龍855又被麒麟980追平,二者并駕齊驅(qū)。
總的來說,驍龍855在CPU性能上的出色其實是意料之中的,而能耗比的表現(xiàn)才是真正讓人們吃下了定心丸。測試結(jié)果表明,Kryo 485核心的高能耗比區(qū)間非常寬,即便是運行在2.85GHz的高頻上依然是非常高效的,這也代表著2019年的安卓旗艦手機將具有出色的電池續(xù)航表現(xiàn)。
推理性能優(yōu)秀,但缺少API支持
除了CPU和GPU之外,高通對驍龍855的另一個宣傳重點是其Hexagon 690加速器模塊。
Hexagon 690的矢量管線相比驍龍845上的Hexagon 680翻了一倍,傳統(tǒng)圖像處理任務以及機器推理工作的性能也相應翻倍。更重要的是,高通為其專門設計了一個張量加速單元,它可以更好地分流推理任務。
高通宣稱Hexagon 690“總共具有7Tops”的計算能力,但是并未透露包括張量加速單元在內(nèi)各部分的具體性能信息。
然而在硬件性能之外,張量加速單元目前的API支持情況卻并不完善,高通表示今年晚些時候才會將相關(guān)特性提供給NNAPI,目前只有公司內(nèi)部的測試軟件才能調(diào)用這個張量加速單元。
這也就意味著,在目前本就非常有限的AI測試軟件中,沒有一個能夠真正測試驍龍855的AI性能,測試結(jié)果僅能體現(xiàn)Hexagon 690作為DSP在傳統(tǒng)矢量管線方面的改進。
本次測試依然使用AI-Benchmark軟件,這是由瑞士ETH蘇黎世計算機視覺實驗室的Andrey Ignatov開發(fā)的新基準測試程序,也是第一個廣泛使用Android 8.1新NNAPI而不依賴于每個SoC供應商自己的SDK工具和API的基準測試程序,能更準確的體現(xiàn)使用NNAPI的應用程序的神經(jīng)網(wǎng)絡性能。
需要記住的一點是,NNAPI不僅僅是一些能夠在NPU上運行神經(jīng)網(wǎng)絡模型的通用轉(zhuǎn)換層,而且API和SoC供應商的底層驅(qū)動程序必須能夠支持公開的函數(shù),并且能夠在IP塊上運行它。這里的區(qū)別在于,使用NNAPI尚未支持的特性(必須退回到CPU上運算)的模型和能夠硬件加速并對量化的INT8或FP16數(shù)據(jù)進行操作的模型。還有一些模型依賴于FP32數(shù)據(jù),這里同樣依賴于底層驅(qū)動程序,它可以在CPU上運行,也可以在GPU上運行。
在依靠CPU運行的第一組測試項,驍龍855的表現(xiàn)中規(guī)中矩。由于屬于短時間突發(fā)的工作負載,此處的性能受系統(tǒng)調(diào)度程序的影響更大,即考驗系統(tǒng)能在多快的時間內(nèi)充分調(diào)用起CPU性能。
接下來測試的是適用于大多數(shù)硬件加速設備的8位整數(shù)量化模型,在這些測試項中驍龍855的性能均處于領(lǐng)先地位。在Pioneers的項目中可以清楚地看到HVX單元的性能確實翻了一番,驍龍855完成運算所用的時間只有驍龍845的一半;而在Cartoons項目中,驍龍855的性能增幅更大,這可能是由于高通改進了驅(qū)動程序,讓代碼能更好的利用新硬件。
在測試FP16的項目中,驍龍855終于受到了挑戰(zhàn)。由于麒麟980已經(jīng)公開了對其硬件的支持,這些測試得以順利的跑在NPU上,而驍龍855則只能使用GPU,不過Adreno 640在這些測試項中倒也不怎么虛,只是略微落后,表現(xiàn)很是驚人,這也側(cè)面證明NNAPI的功能和性能都非常成熟,可以充分利用各種加速單元。
而到了FP32測試項中,驍龍855再次依靠強大的GPU加速以壓倒性的優(yōu)勢制霸全場,當然這也是意料之中的……
測完AI-Benchmark,順便測測魯大師的AIMark。AIMark沒有使用NNAPI,而是基于高通的SNPE框架和蘋果的CoreML進行加速,這也讓驍龍855和蘋果A12難得的可以湊在一起進行比較。
在AIMark中,驍龍855相比驍龍845有了2.5~3倍的性能提升??偟膩碚f,即使目前的測試軟件還無法調(diào)用張量加速單元,驍龍855的推理性能也非常出色。
順便一提,高通還現(xiàn)場展示了驍龍855運行InceptionV3內(nèi)部測試的情況,該測試由HVX單元和新的張量加速單元共同加速,推斷性能達到每秒148次,與不使用張量加速單元的AIMark相比,性能提升了26%。
系統(tǒng)性能
雖然具體測試軟件中的穩(wěn)態(tài)負載性能很重要,但模擬實際使用情況的系統(tǒng)測試顯然更具有代表性,其性能不僅取決于硬件,還取決于軟件,例如CPU調(diào)度以及API等環(huán)節(jié)都會對設備的最終使用體驗產(chǎn)生很大影響。
讓人心下一涼的是,驍龍855在PCMark的Web瀏覽器測試中開局不利。由于某些未知原因,驍龍855 QRD平臺無法與現(xiàn)有的驍龍845手機拉開優(yōu)勢,嚴重偏離了對標Mate 20與麒麟980的預期。
視頻編輯測試的得分也相當平庸,不過這個測試項已經(jīng)基本上達到了天花板,今天的大多數(shù)設備彼此之間都無法拉開實質(zhì)性的差距。
文字編輯測試是PCMark中最重要的子項目之一,驍龍855 QRD平臺終于恢復了正常表現(xiàn),與Mate 20斗了個旗鼓相當。
圖片編輯測試的特點是較短的重型RenderScript突發(fā)負載,這一項中驍龍855 QRD平臺表現(xiàn)良好,不過卻輸給了小米MIX 2S和一加6兩款驍龍845旗艦機,可見軟件對系統(tǒng)性能的影響。
在最后一項數(shù)據(jù)處理測試中,驍龍855表現(xiàn)良好,但仍然與麒麟980結(jié)伴輸給了谷歌Pixel 3……
總體而言,驍龍855 QRD平臺在PCMark中的表現(xiàn)不錯,與使用麒麟980的Mate 20處于同一水平,不過卻時常妖異的雙雙輸給驍龍845,到底該說高通的軟件支持好還是不好呢?
其他基于Web的基準測試,如Speedometer 2.0和WebXPRT 3,也都是類似的結(jié)果,驍龍855相比驍龍845的性能提升只有不到20%,與麒麟980相比也有顯著的差距。
高通方面也驚訝于這樣的結(jié)果,稱將對此進行研究(老鐵你們自己內(nèi)部是沒測這些么?),并例常表示正式設備上的調(diào)度程序和軟件可能會提高性能。
性能調(diào)度測試
這是一項你沒見過的船新測試,可以檢測設備的DVFS響應能力,也就是系統(tǒng)能在多快的時間內(nèi)充分調(diào)用起CPU性能。
驍龍855 QRD平臺的調(diào)度過程呈階梯式,先拉起1.8GHz的小核心,在大約40ms后負載便轉(zhuǎn)移到2.45GHz的大核心上,隨后又再次轉(zhuǎn)移到2.85GHz的核心上,這是一種非??焖俚臄U展行為,從睡眠狀態(tài)切換至最大性能狀態(tài)的整個過程耗時大約100ms。
作為對比,谷歌Pixel 3非常暴力,一步到位直接拉起大核心,僅30ms就完成了切換;而三星S9+的調(diào)度方式更為平緩,小核心和大核心的調(diào)用均按部就班,一級一級的提升頻率,需要大約135ms才能完成切換。
與麒麟980相比,驍龍855的調(diào)度過程其實并不慢,奇怪之處在于,驍龍855在將負載從小核心遷移至大核心時會出現(xiàn)約3ms的停頓,這在三星S9+上也有類似體現(xiàn),似乎基于高通公版調(diào)度程序的設備均有這樣的特征。
(注:回想上面PCMark的測試結(jié)果,在驍龍855輸給驍龍845的項目中,三星使用驍龍845的Note 9同樣很差,看來這個鍋很可能就是高通公版調(diào)度程序來背了,最終系統(tǒng)表現(xiàn)還是要看廠商能不能搞出自己的高效調(diào)度程序。)
GPU性能&功耗測試
高通對于驍龍855中Adreno 640的性能宣傳比較保守,稱其相比驍龍845上的Adreno 630提升了20%,這和其宣稱新GPU的ALU規(guī)模增加50%明顯不符,再加上全新的7nm工藝,很多人都認為驍龍855的GPU性能應該提升的更多。
Kishonti的GFXBench多年來一直是行業(yè)標準,新的Aztec測試給我們帶來了不同的工作量。不久前Kishonti發(fā)布了GFXBench的5.0版本,這個版本建立在新的渲染引擎上運行,并引入了High Tier和Normal Tier模式下的全新測試場景Aztec Ruins。新的測試更加考驗著色性能,利用更復雜的效果來強調(diào)GPU的算術(shù)能力。
測試結(jié)果顯示,高通誠不欺我,無論是在Aztec High還是Aztec Normal場景下,驍龍855的圖形性能相比驍龍845提升甚至還達不到20%這一官方數(shù)據(jù),明顯不如蘋果的A12相比A11的進步來的大。
不過在能耗比方面,驍龍855表現(xiàn)非常出色,僅略微落后于蘋果A12,大幅領(lǐng)先麒麟980(Arm出來接鍋),GPU功耗也從驍龍845的5W下降至4.44瓦。
而在T-Rex測試場景中,驍龍855的性能提升幅度更為有限,由于T-Rex測試場景已經(jīng)比較老舊,在現(xiàn)代SoC上的幀速率普遍非常高,通??蛇_到一二百幀,因此在許多方面都會受到制約,很難搞清楚瓶頸究竟在哪里,參考價值遠不如更加現(xiàn)代的曼哈頓3.1和Aztec Ruins Vulkan測試場景。
能耗比方面的情況與前面類似,驍龍855相比驍龍845提高約30%,同樣僅略微落后于蘋果A12而大幅領(lǐng)先于麒麟980。
總的來說,此次驍龍855的性能雖然提升幅度不算很大,但能耗比表現(xiàn)非常優(yōu)秀。鑒于新GPU的ALU規(guī)模增加了50%,猜測,高通此番可能是選擇了增大GPU規(guī)模并壓低頻率的方式來提升能耗比。
總結(jié)
2018年是高通非常成功的一年,驍龍845作為一顆全面且可靠的SoC被旗艦手機廣為使用,現(xiàn)在,驍龍855也將要延續(xù)這一趨勢。
曾在文章中提到,Arm小核心的性能在實際使用中很容易成為短板,這意味著我們未來可能會看到更多像麒麟980這樣的“大-中-小”三集群SoC。驍龍855選擇了“1+3+4”的設計,雖然細節(jié)略有差異但思路相同,Arm也應該思考一下小核心是否還應該繼續(xù)使用性能低下的順序執(zhí)行架構(gòu)。
CPU性能方面,驍龍855在SPEC2006這樣的穩(wěn)態(tài)工況下表現(xiàn)得非常好,高通對架構(gòu)的優(yōu)化得以體現(xiàn),但緩存/內(nèi)存子系統(tǒng)似乎仍然遺留著驍龍845中的一些延遲問題,系統(tǒng)級緩存在設計上還有待進一步調(diào)整。在系統(tǒng)性能測試中,驍龍855的表現(xiàn)也要低于預期,在許多項目中均以較大劣勢輸給了麒麟980。
而GPU方面,驍龍855的表現(xiàn)也一反常態(tài),相比前代性能提升幅度只有不到20%。倒不是說這個性能不夠好,雖然目前在安卓陣營中仍然穩(wěn)坐第一名,但既然出自高通之手,要求和期待高一些也正常,不是么?
(據(jù)傳三星Exynos 9820將使用Mali G76 MP12的設計,GPU性能相比Exynos 9810提升40%,各位看官可以自行算算……)
唯一讓人感覺無比放心的反倒是AI推理性能,AI-Benchmark的FP16測試在不使用張量加速單元的情況下,讓了一只手依然幾乎打平麒麟980,INT8和FP32項目中則是橫掃全場,魯大師的AIMark更是連蘋果A12一起連鍋端。
當然,對于測試中那些異常的表現(xiàn),高通也表示了關(guān)注并將對其進行研究。我們只能寄希望于這確實是由于軟件方面的不足,但愿正式上市的手機可以換用更好的調(diào)度程序。
而作為消費者,剩下的就是等待首批驍龍855旗艦機的上市了。