英國(guó)人工智能安全研究所發(fā)布最新 LLM 安全評(píng)估等公告
5 月 20 日,英國(guó)政府下屬人工智能安全研究所(AISI)發(fā)布三則公告,包括一篇研究報(bào)告與兩則組織公告。組織公告中表示,今年夏天 AISI 將在美國(guó)舊金山開設(shè)其首個(gè)海外辦公室。它將作為研究所倫敦總部的補(bǔ)充分支機(jī)構(gòu)運(yùn)行,使英國(guó)能夠利用灣區(qū)豐富的科技人才,與總部位于倫敦和舊金山的全球最大的人工智能實(shí)驗(yàn)室合作,并鞏固與美國(guó)的關(guān)系,為公共利益推進(jìn)人工智能安全研究。
研究報(bào)告《AISI 高級(jí)人工智能評(píng)估:五月更新》中,AISI 評(píng)估了目前向公眾開放使用的五款大語言模型(LLM)的安全性,包括模型是否可以用于實(shí)施網(wǎng)絡(luò)攻擊、是否能提供化學(xué)與生物學(xué)上可用于積極和有害方向的專家級(jí)的知識(shí)、是否能以人類難以控制的形式自主運(yùn)行一系列行動(dòng)、是否易「越獄」或易于繞過保護(hù)機(jī)制以引出有害內(nèi)容等。
現(xiàn)有結(jié)果中,多個(gè) LLM 展示了化學(xué)與生物學(xué)方向的專家級(jí)知識(shí),水平與受過博士等級(jí)培訓(xùn)的人類相近;多個(gè) LLM 完成了高中生水平的簡(jiǎn)單網(wǎng)絡(luò)挑戰(zhàn),但應(yīng)對(duì)大學(xué)生水平挑戰(zhàn)時(shí)吃力;兩款 LLM 完成了簡(jiǎn)單的代理任務(wù),但無法規(guī)劃與執(zhí)行更復(fù)雜任務(wù)的行動(dòng)序列;所有受測(cè)的 LLM 面對(duì)最低等級(jí)的越獄操作時(shí)都易被突破,有些 LLM 甚至無需繞過保護(hù)機(jī)制就會(huì)提供有害輸出。
(少數(shù)派)