英國(guó)人工智能安全研究所發(fā)布最新 LLM 安全評(píng)估等公告

時(shí)間：2024-05-21 11:11:58

關(guān)鍵字：英國(guó) 人工智能安全研究所 LLM 安全評(píng)估 AI 人工智能

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]5 月 20 日，英國(guó)政府下屬人工智能安全研究所（AISI）發(fā)布了最新的 LLM 安全評(píng)估等三則公告。

5 月 20 日，英國(guó)政府下屬人工智能安全研究所（AISI）發(fā)布三則公告，包括一篇研究報(bào)告與兩則組織公告。組織公告中表示，今年夏天 AISI 將在美國(guó)舊金山開設(shè)其首個(gè)海外辦公室。它將作為研究所倫敦總部的補(bǔ)充分支機(jī)構(gòu)運(yùn)行，使英國(guó)能夠利用灣區(qū)豐富的科技人才，與總部位于倫敦和舊金山的全球最大的人工智能實(shí)驗(yàn)室合作，并鞏固與美國(guó)的關(guān)系，為公共利益推進(jìn)人工智能安全研究。

研究報(bào)告《AISI 高級(jí)人工智能評(píng)估：五月更新》中，AISI 評(píng)估了目前向公眾開放使用的五款大語言模型（LLM）的安全性，包括模型是否可以用于實(shí)施網(wǎng)絡(luò)攻擊、是否能提供化學(xué)與生物學(xué)上可用于積極和有害方向的專家級(jí)的知識(shí)、是否能以人類難以控制的形式自主運(yùn)行一系列行動(dòng)、是否易「越獄」或易于繞過保護(hù)機(jī)制以引出有害內(nèi)容等。

現(xiàn)有結(jié)果中，多個(gè) LLM 展示了化學(xué)與生物學(xué)方向的專家級(jí)知識(shí)，水平與受過博士等級(jí)培訓(xùn)的人類相近；多個(gè) LLM 完成了高中生水平的簡(jiǎn)單網(wǎng)絡(luò)挑戰(zhàn)，但應(yīng)對(duì)大學(xué)生水平挑戰(zhàn)時(shí)吃力；兩款 LLM 完成了簡(jiǎn)單的代理任務(wù)，但無法規(guī)劃與執(zhí)行更復(fù)雜任務(wù)的行動(dòng)序列；所有受測(cè)的 LLM 面對(duì)最低等級(jí)的越獄操作時(shí)都易被突破，有些 LLM 甚至無需繞過保護(hù)機(jī)制就會(huì)提供有害輸出。

（少數(shù)派）