了解 RLAIF:使用 AI 反饋擴(kuò)展 LLM 對齊的技術(shù)概述
隨著最近LLM的成就和關(guān)注,以及隨之而來的人工智能“夏季”,模型訓(xùn)練方法開始復(fù)興,旨在盡快獲得最優(yōu)、性能最佳的模型。其中大部分是通過大規(guī)模實現(xiàn)的——更多芯片、更多數(shù)據(jù)、更多訓(xùn)練步驟。然而,許多團(tuán)隊一直專注于如何更高效、更智能地訓(xùn)練這些模型,以實現(xiàn)預(yù)期結(jié)果。
法學(xué)碩士培養(yǎng)通常包括以下階段:
· 預(yù)訓(xùn)練:這個初始階段奠定了基礎(chǔ),將模型從一組惰性神經(jīng)元轉(zhuǎn)變?yōu)榛镜恼Z言生成器。雖然模型會吸收大量數(shù)據(jù)(例如整個互聯(lián)網(wǎng)),但此階段的輸出通常是無意義的,盡管并非完全是胡言亂語。
· 監(jiān)督式微調(diào) (SFT):此階段將模型從難以理解的狀態(tài)提升,使其能夠生成更連貫、更有用的輸出。SFT 涉及為模型提供所需行為的具體示例,并教會它什么是“有幫助、有用和合理的”。在此階段之后,模型可以部署并用于生產(chǎn)。
· 強(qiáng)化學(xué)習(xí) (RL):強(qiáng)化學(xué)習(xí)將模型從“有效”提升到“良好”,超越了明確的指令,允許模型通過標(biāo)記的偏好數(shù)據(jù)學(xué)習(xí)用戶的隱性偏好和愿望。這使開發(fā)人員能夠鼓勵期望的行為,而無需明確定義為什么這些行為是首選。
· 情境學(xué)習(xí):這種技術(shù)也稱為即時工程,允許用戶在推理時直接影響模型行為。通過采用約束和 N 次學(xué)習(xí)等方法,用戶可以微調(diào)模型的輸出以適應(yīng)特定需求和情境。
請注意,這不是一個詳盡的列表,還有許多其他方法和階段可以納入特殊的訓(xùn)練流程
引入獎勵和強(qiáng)化學(xué)習(xí)
人類擅長模式識別,通常無需刻意努力就能學(xué)習(xí)和適應(yīng)。我們的智力發(fā)展可以看作是一個不斷增加的復(fù)雜模式識別過程。孩子在經(jīng)歷負(fù)面后果后學(xué)會不跳進(jìn)水坑,就像法學(xué)碩士經(jīng)歷 SFT 一樣。同樣,觀察社交互動的青少年學(xué)會根據(jù)正面和負(fù)面反饋調(diào)整自己的行為——強(qiáng)化學(xué)習(xí)的本質(zhì)。
強(qiáng)化學(xué)習(xí)實踐:關(guān)鍵組成部分
· 偏好數(shù)據(jù): LLM 中的強(qiáng)化學(xué)習(xí)通常需要多個(通常是 2 個)示例輸出和一個提示/輸入,以展示“梯度”。這旨在表明某些行為相對于其他行為更受青睞。例如,在 RLHF 中,可能會向人類用戶提供提示和兩個示例,并要求他們選擇他們喜歡哪個,或者在其他方法中,可能會向他們提供輸出并要求他們以某種方式對其進(jìn)行改進(jìn)(其中改進(jìn)的版本將被視為“首選”選項)。
· 獎勵模型:獎勵模型直接在偏好數(shù)據(jù)上進(jìn)行訓(xùn)練。對于給定輸入的一組響應(yīng),每個響應(yīng)都可以分配一個標(biāo)量值,表示其在集合中的“排名”(對于二進(jìn)制示例,這可以是 0 和 1)。然后訓(xùn)練獎勵模型以在給定新的輸入和輸出對的情況下預(yù)測這些標(biāo)量值。也就是說,RM 能夠重現(xiàn)或預(yù)測用戶的偏好
· 生成器模型:這是最終預(yù)期的產(chǎn)物。簡而言之,在強(qiáng)化訓(xùn)練過程中,生成器模型會生成一個輸出,然后由獎勵模型對其進(jìn)行評分,并將得到的獎勵反饋給算法,該算法決定如何改變生成器模型。例如,當(dāng)提供正獎勵時,算法將更新模型以增加生成給定輸出的幾率,而在提供負(fù)獎勵的情況下則執(zhí)行相反的操作。
在 LLM 領(lǐng)域,RLHF 一直是一股主導(dǎo)力量。通過收集大量人類偏好數(shù)據(jù),RLHF 顯著提高了 LLM 的表現(xiàn)。然而,這種方法成本高昂、耗時長,而且容易受到偏見和漏洞的影響。
這一限制促使人們探索大規(guī)模獲取獎勵信息的替代方法,為 RLAIF 的出現(xiàn)鋪平了道路——一種有望重新定義人工智能發(fā)展未來的革命性方法。
了解 RLAIF:使用 AI 反饋擴(kuò)展 LLM 對齊的技術(shù)概述
RLAIF 背后的核心思想既簡單又深刻:如果 LLM 可以生成詩歌、腳本甚至代碼等創(chuàng)意文本格式,為什么他們不能自學(xué)?這種自我完善的概念有望實現(xiàn)前所未有的質(zhì)量和效率水平,超越 RLHF 的局限性。這正是研究人員通過 RLAIF 取得的成就。
與任何形式的強(qiáng)化學(xué)習(xí)一樣,關(guān)鍵在于為輸出分配價值并訓(xùn)練獎勵模型來預(yù)測這些價值。RLAIF 的創(chuàng)新之處在于能夠自動大規(guī)模生成這些偏好標(biāo)簽,而無需依賴人工輸入。雖然所有 LLM 最終都以某種形式源自人工生成的數(shù)據(jù),但 RLAIF 利用現(xiàn)有的 LLM 作為“老師”來指導(dǎo)訓(xùn)練過程,從而無需持續(xù)進(jìn)行人工標(biāo)記。
使用這種方法,作者能夠從 RLAIF 獲得與 RLHF 相當(dāng)甚至更好的結(jié)果。請參見下面的“無害響應(yīng)率”圖表,比較各種方法:
為了實現(xiàn)這一目標(biāo),作者開發(fā)了許多方法創(chuàng)新。
· 情境學(xué)習(xí)和提示工程: RLAIF 利用情境學(xué)習(xí)和精心設(shè)計的提示來從教師 LLM 那里獲取偏好信息。這些提示提供背景、示例(用于小樣本學(xué)習(xí))和要評估的樣本。教師 LLM 的輸出然后作為獎勵信號。
· 思路鏈推理:為了提高教師法學(xué)碩士的推理能力,RLAIF 采用思路鏈 (CoT) 提示。雖然推理過程本身不直接使用,但它可以讓教師法學(xué)碩士做出更明智、更細(xì)致的偏好判斷。
· 解決位置偏見:為了減輕響應(yīng)順序?qū)處熎玫挠绊?,RLAIF 對從具有不同響應(yīng)順序的多個提示中獲得的偏好進(jìn)行平均。
為了更直接地理解這一點,想象一下你試圖訓(xùn)練的人工智能是一個學(xué)生,通過連續(xù)的反饋循環(huán)學(xué)習(xí)和改進(jìn)。然后想象一個已經(jīng)經(jīng)過大量訓(xùn)練的現(xiàn)成人工智能作為老師。老師獎勵學(xué)生采取某些行動、提出某些反應(yīng)等,否則懲罰學(xué)生。它這樣做的方式是通過“測試”學(xué)生,通過給學(xué)生測驗,學(xué)生必須選擇最佳答案。這些測試是通過“對比”提示生成的,其中老師通過略微改變提示來生成略有不同的答案。
例如,在代碼生成方面,一個提示可能會鼓勵 LLM 生成高效的代碼,但可能會犧牲可讀性,而另一個提示則強(qiáng)調(diào)代碼清晰度和文檔。然后,老師將自己的偏好指定為“基本事實”,并要求學(xué)生指出其認(rèn)為的首選輸出是什么。通過比較學(xué)生在這些對比提示下的回答,RLAIF 可以評估哪個回答更符合所需屬性。
同時,學(xué)生的目標(biāo)是最大化累積獎勵。因此,每次受到懲罰時,它都會決定改變自己,以免再次犯錯并再次受到懲罰。當(dāng)它得到獎勵時,它的目標(biāo)是強(qiáng)化這種行為,以便將來更有可能重現(xiàn)相同的反應(yīng)。這樣,在連續(xù)的測驗中,學(xué)生會變得越來越好,受到的懲罰越來越少。雖然懲罰永遠(yuǎn)不會降為零,但學(xué)生確實會收斂到某個最小值,這代表了它能夠?qū)崿F(xiàn)的最佳表現(xiàn)。從那里開始,學(xué)生做出的未來推理可能比不使用 RLAIF 時質(zhì)量高得多。
評估合成(LLM 生成的)偏好數(shù)據(jù)對于有效對齊至關(guān)重要。RLAIF 使用“自我獎勵”分?jǐn)?shù),該分?jǐn)?shù)比較對比提示下兩個響應(yīng)的生成概率。該分?jǐn)?shù)反映了每個響應(yīng)與所需屬性的相對對齊程度。最后,直接偏好優(yōu)化 (DPO) 是一種高效的 RL 算法,它利用這些自我獎勵分?jǐn)?shù)來優(yōu)化學(xué)生模型,鼓勵其生成符合人類價值觀的響應(yīng)。DPO 直接優(yōu)化 LLM 以獲得首選響應(yīng),而無需明確訓(xùn)練單獨的獎勵模型。
RLAIF 實際應(yīng)用:應(yīng)用和優(yōu)勢
RLAIF 的多功能性擴(kuò)展到各種任務(wù),包括摘要、對話生成和代碼生成。研究表明,RLAIF 可以實現(xiàn)與 RLHF 相當(dāng)甚至更好的性能,同時顯著減少對人工注釋的依賴。這意味著可以大幅節(jié)省成本并縮短迭代周期,這使得 RLAIF 對于快速發(fā)展的 LLM 開發(fā)特別有吸引力。
此外,RLAIF 為未來“閉環(huán)”法學(xué)碩士改進(jìn)打開了大門。隨著學(xué)生模型通過 RLAIF 變得更加一致,反過來,它可以用作后續(xù) RLAIF 迭代的更可靠的教師模型。這形成了一個正反饋循環(huán),有可能在無需額外人工干預(yù)的情況下持續(xù)改進(jìn)法學(xué)碩士的一致性。
那么如何利用 RLAIF?如果你已經(jīng)有了 RL 管道,這其實很簡單:
1. 提示集:從一組旨在引發(fā)所需行為的提示開始。或者,您可以利用現(xiàn)成的 LLM 來生成這些提示。
2. 對比提示:對于每個提示,創(chuàng)建兩個略有不同的版本,強(qiáng)調(diào)目標(biāo)行為的不同方面(例如,有用性與安全性)。 LLM 也可以自動執(zhí)行此過程。
3. 響應(yīng)生成:捕獲學(xué)生 LLM 對每個提示變化的響應(yīng)。
4. 偏好引出:創(chuàng)建元提示,以針對每個提示-響應(yīng)對從老師 LLM 處獲取偏好信息。
5. RL 管道集成:利用現(xiàn)有 RL 管道中生成的偏好數(shù)據(jù)來指導(dǎo)學(xué)生模型的學(xué)習(xí)和優(yōu)化。
挑戰(zhàn)與限制
盡管 RLAIF 潛力巨大,但它仍面臨需要進(jìn)一步研究的挑戰(zhàn)。人工智能注釋的準(zhǔn)確性仍然令人擔(dān)憂,因為教師 LLM 的偏見可能會傳播到學(xué)生模型中。此外,這些偏好數(shù)據(jù)中包含的偏見最終可能會在教師 LLM 中“結(jié)晶”,這使得事后很難消除。此外,研究表明,與 RLAIF 一致的模型有時會生成事實不一致或連貫性降低的響應(yīng)。這需要探索技術(shù)來改善生成文本的事實基礎(chǔ)和整體質(zhì)量。
解決這些問題需要探索提高人工智能反饋的可靠性、質(zhì)量和客觀性的技術(shù)。
此外,RLAIF 的理論基礎(chǔ)需要仔細(xì)研究。雖然自我獎勵分?jǐn)?shù)的有效性已被證實,但仍需要進(jìn)一步分析以了解其局限性并完善其基本假設(shè)。
新興趨勢和未來研究
RLAIF 的出現(xiàn)引發(fā)了令人興奮的研究方向。將其與其他 RL 方法(如執(zhí)行反饋強(qiáng)化學(xué)習(xí) (RLEF))進(jìn)行比較,可以深入了解它們各自的優(yōu)缺點。
一個方向涉及研究細(xì)粒度反饋機(jī)制,該機(jī)制在單個 token 級別提供更細(xì)粒度的獎勵,從而可能帶來更精確和更細(xì)微的對齊結(jié)果。另一個有希望的途徑是探索多模態(tài)信息的集成,結(jié)合來自圖像和視頻的數(shù)據(jù)來豐富對齊過程并促進(jìn)對 LLM 的更全面理解。從人類學(xué)習(xí)中汲取靈感,研究人員也在探索課程學(xué)習(xí)原則在 RLAIF 中的應(yīng)用,逐步增加任務(wù)的復(fù)雜性以提高對齊過程的效率和有效性。
此外,研究 RLAIF 中正反饋循環(huán)的潛力,從而實現(xiàn)無需人工干預(yù)的 LLM 持續(xù)改進(jìn),這代表著朝著更加自主和自我完善的 AI 生態(tài)系統(tǒng)邁出了重要一步。
此外,通過將反饋融入現(xiàn)實世界,可能有機(jī)會提高這種方法的質(zhì)量。例如,如果代理能夠執(zhí)行代碼、進(jìn)行現(xiàn)實世界的實驗或與機(jī)器人系統(tǒng)集成以在現(xiàn)實世界中“實例化”反饋以捕獲更客觀的反饋,它將能夠捕獲更準(zhǔn)確、更可靠的偏好信息,而不會失去擴(kuò)展優(yōu)勢。
然而,道德考量仍然至關(guān)重要。由于 RLAIF 使 LLM 能夠塑造自己的定位,因此確保負(fù)責(zé)任的開發(fā)和部署至關(guān)重要。建立強(qiáng)有力的保障措施以防止?jié)撛诘臑E用并減輕從教師模型中繼承的偏見對于建立信任和確保這項技術(shù)的道德進(jìn)步至關(guān)重要。如前所述,RLAIF 有可能傳播和放大源數(shù)據(jù)中存在的偏見,在擴(kuò)展這種方法之前必須仔細(xì)檢查這些偏見。
結(jié)論:RLAIF 是實現(xiàn) AI 協(xié)調(diào)發(fā)展的墊腳石
RLAIF 提供了一種強(qiáng)大而有效的 LLM 對齊方法,與傳統(tǒng)的 RLHF 方法相比具有顯著的優(yōu)勢。它的可擴(kuò)展性、成本效益和自我改進(jìn)潛力為人工智能發(fā)展的未來帶來了巨大的希望。在承認(rèn)當(dāng)前挑戰(zhàn)和局限性的同時,正在進(jìn)行的研究工作正在積極為更可靠、客觀和合乎道德的 RLAIF 框架鋪平道路。隨著我們繼續(xù)探索這一令人興奮的前沿,RLAIF 將成為邁向未來的墊腳石,在未來,LLM 將與人類價值觀和期望無縫融合,充分釋放人工智能的潛力,造福社會。