英國人工智能安全研究所發(fā)布最新 LLM 安全評估等公告
5 月 20 日,英國政府下屬人工智能安全研究所(AISI)發(fā)布三則公告,包括一篇研究報告與兩則組織公告。組織公告中表示,今年夏天 AISI 將在美國舊金山開設(shè)其首個海外辦公室。它將作為研究所倫敦總部的補充分支機構(gòu)運行,使英國能夠利用灣區(qū)豐富的科技人才,與總部位于倫敦和舊金山的全球最大的人工智能實驗室合作,并鞏固與美國的關(guān)系,為公共利益推進人工智能安全研究。
研究報告《AISI 高級人工智能評估:五月更新》中,AISI 評估了目前向公眾開放使用的五款大語言模型(LLM)的安全性,包括模型是否可以用于實施網(wǎng)絡(luò)攻擊、是否能提供化學(xué)與生物學(xué)上可用于積極和有害方向的專家級的知識、是否能以人類難以控制的形式自主運行一系列行動、是否易「越獄」或易于繞過保護機制以引出有害內(nèi)容等。
現(xiàn)有結(jié)果中,多個 LLM 展示了化學(xué)與生物學(xué)方向的專家級知識,水平與受過博士等級培訓(xùn)的人類相近;多個 LLM 完成了高中生水平的簡單網(wǎng)絡(luò)挑戰(zhàn),但應(yīng)對大學(xué)生水平挑戰(zhàn)時吃力;兩款 LLM 完成了簡單的代理任務(wù),但無法規(guī)劃與執(zhí)行更復(fù)雜任務(wù)的行動序列;所有受測的 LLM 面對最低等級的越獄操作時都易被突破,有些 LLM 甚至無需繞過保護機制就會提供有害輸出。
(少數(shù)派)