技能大模式Skill Model重磅發(fā)布 浪潮"源"大模型加速AI生產(chǎn)力升級
北京2022年6月30日 /美通社/ -- 近日,浪潮信息發(fā)布了基于"源1.0"大模型生成的4個技能大模型(Skill Model),分別為對話模型"源曉問"、問答模型"源曉搜"、翻譯模型"源曉譯"、古文模型"源曉文"。這些技能大模型在各自細(xì)分領(lǐng)域的精度業(yè)界領(lǐng)先,可直接應(yīng)用于人機(jī)交互、知識檢索、語言翻譯和文學(xué)創(chuàng)作等領(lǐng)域,模型運行速度最高提升9倍。更重要的是,基于大模型快速生成特定領(lǐng)域的技能大模型(Skill Model),也意味著"源"的AI生產(chǎn)力大幅升級,能夠幫助商業(yè)組織和研究機(jī)構(gòu)實現(xiàn)對AI技術(shù)的高效、快速和低成本應(yīng)用,加速產(chǎn)業(yè)AI化。
技能大模型(Skill Model):大模型生產(chǎn)方式的新變革
應(yīng)用場景的碎片化導(dǎo)致大量的定制化,是當(dāng)前人工智能從技術(shù)向應(yīng)用轉(zhuǎn)化過程中,遇到的一個突出問題。千行百業(yè)使用人工智能,如果一個場景一個場景的去定制,無論是時間成本還是人力成本都很高,維護(hù)的難度也很大。大模型的出現(xiàn),使得模型的生產(chǎn)效率得到了極大的提高,技能模型就是典型的代表。
所謂技能大模型(Skill Model),是指面向特定行業(yè)或場景,通過知識蒸餾、模型裁剪、模型壓縮等技術(shù),通過通用大模型生成具備該行業(yè)或場景所需特定技能的專業(yè)模型,在保留通用大模型的知識、認(rèn)知推理能力及泛化能力基礎(chǔ)上,實現(xiàn)針對該領(lǐng)域的技能專業(yè)化、模型輕載化和調(diào)用標(biāo)準(zhǔn)化。
"技能大模型(Skill Model)"帶來了AI模型生產(chǎn)方式的新變革,將原本耗時數(shù)月經(jīng)年的大模型開發(fā)訓(xùn)練周期,縮短至短短數(shù)周,極大降低了開發(fā)與訓(xùn)練成本。技能大模型(Skill Model)的價值在于,其針對特定領(lǐng)域進(jìn)行了強化學(xué)習(xí),能夠?qū)崿F(xiàn)與通用的基礎(chǔ)大模型相當(dāng)或更好的性能表現(xiàn),且拿來即用,使用門檻更低,應(yīng)用效果更佳。同時由于模型的輕載化特點,使其便于部署且消耗計算資源更少,能夠顯著減低使用成本和維護(hù)難度。
此外,技能大模型(Skill Model)還可以與通用大模型協(xié)同進(jìn)化,它的執(zhí)行結(jié)果反饋給通用大模型后,能夠讓通用大模型的知識與能力持續(xù)進(jìn)化,即落地場景越多、模型進(jìn)化得"越聰明",同時模型進(jìn)化的速度也越快。
浪潮信息副總裁劉軍表示:"研發(fā)大模型需要千萬元的訓(xùn)練成本,海量數(shù)據(jù)集及巨大的算力資源,這對很多客戶來說是個巨大的門檻,我們希望通過"技能大模型(Skill Model)"的模型生產(chǎn)方式變革,推動AI生產(chǎn)力的升級,讓行業(yè)用戶甚至是中小用戶也能利用大模型開展深度創(chuàng)新,從而加速整個社會的智能化升級。"
四大技能模型重磅發(fā)布: 對話、問答、翻譯、古文
此次浪潮信息發(fā)布的四大技能模型(Skill Model),在繼承"源1.0"大模型通用的知識與能力基礎(chǔ)上,面向特定領(lǐng)域的場景進(jìn)行針對性的技能優(yōu)化,模型精度和訓(xùn)練效率均處于業(yè)界領(lǐng)先:在十分之一參數(shù)量的情況下,即可在相同任務(wù)上復(fù)現(xiàn)98%的通用大模型效果,推理速度最高提升9倍。
對話模型("源曉問")在源大模型基礎(chǔ)上,又采用了2660萬條醫(yī)療、法律、保險等不同行業(yè),歷史、電影、娛樂等不同場景的對話語料數(shù)據(jù)進(jìn)行強化訓(xùn)練,在高頻閑聊、知識問答等開放式問答對話上表現(xiàn)突出,打榜業(yè)界權(quán)威測評WebQA開放問答數(shù)據(jù)集及CUGE兩項榜單均位居榜首。作為高水平對話問答技能模型,源曉問可廣泛應(yīng)用于虛擬人、智能助手、智能客服等場景。目前已經(jīng)有開發(fā)者在GitHub社區(qū)發(fā)布了由源1.0進(jìn)行角色扮演的劇本殺實錄,源1.0的場景化對話技能已經(jīng)達(dá)到了"人機(jī)難辨"的程度。
翻譯模型("源曉譯")基于源大模型閱讀的海量高質(zhì)量數(shù)據(jù)集,采用維基百科、書籍、聯(lián)合國文件及字幕組等近80G高質(zhì)量數(shù)據(jù)集進(jìn)行強化訓(xùn)練,因此翻譯不但流暢準(zhǔn)確,同時更符合中文表述,在中譯英時表述更加專業(yè)地道,可輕松應(yīng)對日常對話、新聞、哲學(xué)、小說等日常的語言翻譯任務(wù)。翻譯模型打榜業(yè)內(nèi)權(quán)威WMT數(shù)據(jù)集及CUGE兩項榜單均位居榜首。
問答模型("源曉搜")鏈接了包含了維基百科、書籍等知識的數(shù)據(jù)庫,根據(jù)用戶提問的內(nèi)容,利用高性能檢索方法,快速地從知識數(shù)據(jù)庫中檢索到與提問內(nèi)容相關(guān)的內(nèi)容作為背景知識,在相關(guān)專業(yè)知識背景下回答問題,能夠生成符合人類語言習(xí)慣的專業(yè)答復(fù)。問答模型支持不同領(lǐng)域知識檢索,僅通過替換鏈接的知識庫便可實現(xiàn)在不同專業(yè)領(lǐng)域之間的適配,實現(xiàn)了搜索和生成的一體化框架,能滿足不同領(lǐng)域知識檢索的需求,可廣泛應(yīng)用于醫(yī)療、法律、保險及娛樂等領(lǐng)域的智能客服、個人助理等場景。此前在打榜WebQA任務(wù)上,問答模型以55.97%的準(zhǔn)確度在業(yè)界遙遙領(lǐng)先。
古文模型("源曉文")在源大模型精讀了5000GB高質(zhì)量中文的基礎(chǔ)上,又學(xué)習(xí)了先秦到近代幾乎所有詩詞,并精選其中最優(yōu)秀的10萬首進(jìn)行強化訓(xùn)練。海量學(xué)習(xí)兼針對性強化訓(xùn)練使得古文理解模型能夠精通古詩詞的用詞、文法及平仄格律等規(guī)則,還擅長營造意境、引經(jīng)據(jù)典,同時兼具古文解析的能力,因此古文模型能夠輕松解決今年高考古文翻譯、詩詞鑒賞等題目,在"金陵詩會"活動中,短短3天作詩近2000首,可廣泛應(yīng)用于文學(xué)創(chuàng)作、古詩文教學(xué)、漢語言文化研究等場景中。
"源1.0"是浪潮信息在2021年發(fā)布的巨量中文語言模型,參數(shù)量高達(dá)2457億,比此前OpenAI發(fā)布的GPT-3大模型,參數(shù)量增加40%,訓(xùn)練數(shù)據(jù)集提升10倍,發(fā)布時便問鼎中文語言理解評測基準(zhǔn)CLUE榜單的零樣本和小樣本學(xué)習(xí)兩類總榜冠軍。目前,"源1.0"已經(jīng)相繼完成了模型API、高質(zhì)量數(shù)據(jù)集、模型訓(xùn)練代碼、推理代碼和應(yīng)用代碼等等內(nèi)容的開源開放,在GitHub社區(qū)、浪潮源官網(wǎng)均可以申請獲取相關(guān)的資源,已有超600家用戶借助"源1.0"提供的數(shù)據(jù)集和API,構(gòu)建了覆蓋金融、互聯(lián)網(wǎng)、醫(yī)療和自動駕駛等行業(yè)的高水平人工智能應(yīng)用。