Arm 通過新的 PyTorch 和 ExecuTorch 集成加速從云到邊的人工智能,賦能開發(fā)者即刻實現(xiàn)性能提升
新聞重點:
?Arm 通過把 Kleidi 技術(shù)集成到 PyTorch 和 ExecuTorch,將關(guān)鍵的 AI 性能優(yōu)勢從邊側(cè)拓展至云端,賦能新一代應(yīng)用在 Arm CPU 上運行大語言模型。
?對普及 ML 工作負載的持續(xù)投入將使任一技術(shù)棧的開發(fā)者能夠在最新的生成式 AI 模型上即刻獲得顯著的推理性能提升。
?通過擴大與云服務(wù)提供商以及主要的 ML 獨立軟件開發(fā)商合作,進一步賦能全球的 AI 開發(fā)者。
Arm 控股有限公司(納斯達克股票代碼:ARM,以下簡稱“Arm”)近期宣布通過將Arm® Kleidi技術(shù)集成到 PyTorch 和 ExecuTorch,賦能新一代應(yīng)用在 Arm CPU 上運行大語言模型 (LLM)。Kleidi 匯集了最新的開發(fā)者賦能技術(shù)和關(guān)鍵資源,旨在推動機器學習 (ML) 技術(shù)棧中的技術(shù)協(xié)作和創(chuàng)新。通過這些重要進展,Arm 致力于為任一 ML 技術(shù)棧的開發(fā)者提供更為順暢的體驗。
Arm 戰(zhàn)略與生態(tài)部開發(fā)者技術(shù)副總裁 Alex Spinelli 表示:“Arm 正與領(lǐng)先的云服務(wù)提供商和框架設(shè)計者緊密合作,以打造便捷的開發(fā)環(huán)境,讓軟件開發(fā)者能夠輕松地在基于 Arm 架構(gòu)的硬件上加速人工智能 (AI) 和 ML 工作負載。自該技術(shù)推出的四個月以來,Kleidi 已在 Arm CPU 上加速開發(fā)并顯著提升主要的 AI 性能。Arm 與 PyTorch 社區(qū)的緊密合作印證了該技術(shù)可以大大減少開發(fā)者利用高效 AI 所需的工作量。”
與領(lǐng)先框架集成,實現(xiàn)顯著云端優(yōu)勢
在云端,Kleidi 以利用 Arm Compute Libraries (ACL) 增強 PyTorch 帶來的成果為基礎(chǔ),為世界各地在 Arm 平臺上優(yōu)化 AI 的開發(fā)者打造藍圖。通過為開發(fā)者免去不必要的工程工作,以便開發(fā)者能將 Arm 視為運行其關(guān)鍵 ML 工作負載的首選平臺。作為實現(xiàn)這一愿景的關(guān)鍵一步,Arm 直接與 PyTorch 和 TensorFlow 進行 Arm Kleidi Libraries 的集成合作,這包括將基本的 Arm 軟件庫直接集成到上述的領(lǐng)先框架中。
重要的是,這意味著當新的框架版本發(fā)布時,應(yīng)用開發(fā)者能夠自動從其大幅的性能提升中受益,而無需額外在 Arm 平臺上重新編譯。這項投入已對合作伙伴關(guān)系產(chǎn)生了積極影響:
Arm 聊天機器人演示由 Meta Llama 3 LLM 驅(qū)動,并運行在亞馬遜云科技 (AWS) Graviton 處理器上,首次在主線 PyTorch 中實現(xiàn)了實時聊天響應(yīng)。
根據(jù)在 AWS Graviton4 上所測得的數(shù)據(jù)顯示,通過將 Kleidi 技術(shù)集成到開源 PyTorch 代碼庫,詞元 (token) 首次響應(yīng)時間可提高 2.5 倍。
通過優(yōu)化 torch.compile以充分利用通過 ACL 提供的 Kleidi 技術(shù),在基于 AWS Graviton3 上所測得的數(shù)據(jù)顯示,各類 Hugging Face 模型推理工作負載上的性能可提升 1.35 至 2 倍。
這些僅是出色的云端示例之一,卻代表了在 Arm 平臺上普及 ML 工作負載時可實現(xiàn)的性能加速類型。Arm 將持續(xù)投入,以確保開發(fā)者的 AI 應(yīng)用可以在其技術(shù)上從云到邊都能完美運行,其中包括實現(xiàn)新功能的向前兼容,進而使得開發(fā)者能夠即刻從中受益。
合作助力開發(fā)者緊跟生成式 AI 發(fā)展步伐
隨著新的語言模型版本快速地推陳出新,生成式 AI 掀起了一波 AI 創(chuàng)新熱潮。Arm 持續(xù)與 ML 技術(shù)棧的各個關(guān)鍵環(huán)節(jié)緊密合作,攜手 AWS 和 Google 等云服務(wù)提供商以及 Databricks 等迅速壯大的 ML 獨立軟件開發(fā)商 (ISV) 社區(qū),進而幫助開發(fā)者立于技術(shù)前沿。
Google Cloud Compute 產(chǎn)品管理高級總監(jiān) Nirav Mehta 表示:“Arm 和 Google Cloud 致力于為開發(fā)者提升 AI 的可訪問性和敏捷性,而 Kleidi 代表了通過軟硬件協(xié)同優(yōu)化滿足 AI 需求所取得的重要進展。隨著我們的客戶正積極采用基于 Arm 架構(gòu)的定制 CPU —— Axion,我們期待在整個 ML 技術(shù)棧中為客戶帶來更加順暢的集成體驗。”
Databricks 軟件工程師Lin Yuan 表示:“利用 Databricks Data Intelligence Platform 進行 AI 和 ML 工作流的企業(yè),將受益于跨 ML 軟件棧的 Arm Kleidi 集成所帶來的性能優(yōu)化。借助由 Databricks ML Runtime 集群提供支持的 Arm 架構(gòu) AWS Graviton 處理器,企業(yè)可以從各種 ML 軟件庫的加速中受益,同時降低云服務(wù)提供商的成本?!?
協(xié)助開發(fā)者將 Arm 提供的資源應(yīng)用到實際用例中至關(guān)重要,為此 Arm 創(chuàng)建示例軟件棧和學習資源,向開發(fā)者展示如何在 Arm CPU 上構(gòu)建 AI 工作負載,進而迅速推動了 Arm 系統(tǒng)的廣泛采用,并加快了開發(fā)者在 Arm 系統(tǒng)上的部署速度。第一個案例是通過Kleidi 技術(shù)加速聊天機器人的實現(xiàn),今年晚些時候 ML Ops 和檢索增強生成 (RAG) 也將添加至這些用例,并計劃在 2025 年實現(xiàn)更多成果。
持續(xù)提升端側(cè)性能
基于 Kleidi 在端側(cè)的發(fā)展勢頭,KleidiAI 還將被集成到ExecuTorch(PyTorch 新的端側(cè)推理運行時)。這項集成預計將于 2024 年 10 月完成,并有望為目前正在 ExecuTorch 中進行生產(chǎn)測試或?qū)崿F(xiàn)的端側(cè)應(yīng)用帶來顯著的性能提升。目前已完成的多項 KleidiAI 集成包括與Google XNNPACK 和 MediaPipe,以及騰訊的混元大模型,為其實際工作負載帶來了顯著提升。
Kleidi 將繼續(xù)與 PyTorch 和 ExecuTorch 的各版本以及其他主要 AI 框架進行集成。從云數(shù)據(jù)中心到端側(cè)設(shè)備,開發(fā)者現(xiàn)在可以即刻在各類設(shè)備上基于 Arm 平臺高效運行高性能 AI 工作負載。Arm 將繼續(xù)積極地面向 PyTorch 社區(qū)推出增強功能,并專注于針對各種整數(shù)格式提供量化優(yōu)化,進一步提高性能,賦能 Arm CPU 大規(guī)模無縫運行新一代 AI 體驗。
實現(xiàn)更多成果以賦能開發(fā)者
PyTorch 正在推動 ML 開發(fā)領(lǐng)域的開拓創(chuàng)新。近日,Arm 加入 PyTorch 基金會成為 Premier 成員,這對于 Arm 的 AI 之旅來說,無疑是一個重要時刻。Arm 將持續(xù)致力于賦能全球各地的開發(fā)者在 Arm 平臺上充分發(fā)揮端到端 AI 的潛力,進而塑造前沿的 AI 和應(yīng)用功能。