加速替代CUDA!摩爾線(xiàn)程開(kāi)源vLLM-MUSA 加速?lài)?guó)產(chǎn)GPU AI
11月5日消息,近日,摩爾線(xiàn)程上線(xiàn)了大語(yǔ)言模型高速推理框架開(kāi)源項(xiàng)目vLLM的MUSA移植版本,為開(kāi)發(fā)者提供基于摩爾線(xiàn)程全功能GPU進(jìn)行開(kāi)源項(xiàng)目MUSA移植的范例。
摩爾線(xiàn)程表示,正努力圍繞自主研發(fā)的統(tǒng)一系統(tǒng)架構(gòu)GPU、MUSA軟件平臺(tái),構(gòu)建完善好用的MUSA應(yīng)用生態(tài)。
vLLM是一個(gè)高效且易用的大模型推理和服務(wù)框架,支持創(chuàng)新的PagedAttention內(nèi)存管理、連續(xù)批處理請(qǐng)求、CUDA/HIP圖的快速模型執(zhí)行、CUDA核心優(yōu)化、分布式推理支持等,可顯著提高大語(yǔ)言模型(LLM)的推理性能。
目前,vLLM已在各種大語(yǔ)言模型中得到廣泛應(yīng)用,成為業(yè)界常用的開(kāi)源大模型推理框架。
摩爾線(xiàn)程基于vLLM v0.4.2版本,進(jìn)行了移植適配,使之支持摩爾線(xiàn)程GPU后端Device,并完全開(kāi)源,開(kāi)發(fā)者可以二次開(kāi)發(fā)、升級(jí)vLLM到社區(qū)更新版本等。