123,123,123

[導(dǎo)讀]隨著最近法學碩士 (LLM)的成就和關(guān)注，以及隨之而來的人工智能“夏季”，模型訓練方法開始復(fù)興，旨在盡快獲得最優(yōu)、性能最佳的模型。其中大部分是通過大規(guī)模實現(xiàn)的——更多芯片、更多數(shù)據(jù)、更多訓練步驟。然而，許多團隊一直專注于如何更高效、更智能地訓練這些模型，以實現(xiàn)預(yù)期結(jié)果。

隨著最近LLM的成就和關(guān)注，以及隨之而來的人工智能“夏季”，模型訓練方法開始復(fù)興，旨在盡快獲得最優(yōu)、性能最佳的模型。其中大部分是通過大規(guī)模實現(xiàn)的——更多芯片、更多數(shù)據(jù)、更多訓練步驟。然而，許多團隊一直專注于如何更高效、更智能地訓練這些模型，以實現(xiàn)預(yù)期結(jié)果。

法學碩士培養(yǎng)通常包括以下階段：

· 預(yù)訓練：這個初始階段奠定了基礎(chǔ)，將模型從一組惰性神經(jīng)元轉(zhuǎn)變?yōu)榛镜恼Z言生成器。雖然模型會吸收大量數(shù)據(jù)(例如整個互聯(lián)網(wǎng))，但此階段的輸出通常是無意義的，盡管并非完全是胡言亂語。

· 監(jiān)督式微調(diào) (SFT)：此階段將模型從難以理解的狀態(tài)提升，使其能夠生成更連貫、更有用的輸出。SFT 涉及為模型提供所需行為的具體示例，并教會它什么是“有幫助、有用和合理的”。在此階段之后，模型可以部署并用于生產(chǎn)。

· 強化學習 (RL)：強化學習將模型從“有效”提升到“良好”，超越了明確的指令，允許模型通過標記的偏好數(shù)據(jù)學習用戶的隱性偏好和愿望。這使開發(fā)人員能夠鼓勵期望的行為，而無需明確定義為什么這些行為是首選。

· 情境學習：這種技術(shù)也稱為即時工程，允許用戶在推理時直接影響模型行為。通過采用約束和 N 次學習等方法，用戶可以微調(diào)模型的輸出以適應(yīng)特定需求和情境。

請注意，這不是一個詳盡的列表，還有許多其他方法和階段可以納入特殊的訓練流程

引入獎勵和強化學習

人類擅長模式識別，通常無需刻意努力就能學習和適應(yīng)。我們的智力發(fā)展可以看作是一個不斷增加的復(fù)雜模式識別過程。孩子在經(jīng)歷負面后果后學會不跳進水坑，就像法學碩士經(jīng)歷 SFT 一樣。同樣，觀察社交互動的青少年學會根據(jù)正面和負面反饋調(diào)整自己的行為——強化學習的本質(zhì)。

強化學習實踐：關(guān)鍵組成部分

· 偏好數(shù)據(jù)： LLM 中的強化學習通常需要多個(通常是 2 個)示例輸出和一個提示/輸入，以展示“梯度”。這旨在表明某些行為相對于其他行為更受青睞。例如，在 RLHF 中，可能會向人類用戶提供提示和兩個示例，并要求他們選擇他們喜歡哪個，或者在其他方法中，可能會向他們提供輸出并要求他們以某種方式對其進行改進(其中改進的版本將被視為“首選”選項)。

· 獎勵模型：獎勵模型直接在偏好數(shù)據(jù)上進行訓練。對于給定輸入的一組響應(yīng)，每個響應(yīng)都可以分配一個標量值，表示其在集合中的“排名”(對于二進制示例，這可以是 0 和 1)。然后訓練獎勵模型以在給定新的輸入和輸出對的情況下預(yù)測這些標量值。也就是說，RM 能夠重現(xiàn)或預(yù)測用戶的偏好

· 生成器模型：這是最終預(yù)期的產(chǎn)物。簡而言之，在強化訓練過程中，生成器模型會生成一個輸出，然后由獎勵模型對其進行評分，并將得到的獎勵反饋給算法，該算法決定如何改變生成器模型。例如，當提供正獎勵時，算法將更新模型以增加生成給定輸出的幾率，而在提供負獎勵的情況下則執(zhí)行相反的操作。

在 LLM 領(lǐng)域，RLHF 一直是一股主導(dǎo)力量。通過收集大量人類偏好數(shù)據(jù)，RLHF 顯著提高了 LLM 的表現(xiàn)。然而，這種方法成本高昂、耗時長，而且容易受到偏見和漏洞的影響。

這一限制促使人們探索大規(guī)模獲取獎勵信息的替代方法，為 RLAIF 的出現(xiàn)鋪平了道路——一種有望重新定義人工智能發(fā)展未來的革命性方法。

了解 RLAIF：使用 AI 反饋擴展 LLM 對齊的技術(shù)概述

RLAIF 背后的核心思想既簡單又深刻：如果 LLM 可以生成詩歌、腳本甚至代碼等創(chuàng)意文本格式，為什么他們不能自學?這種自我完善的概念有望實現(xiàn)前所未有的質(zhì)量和效率水平，超越 RLHF 的局限性。這正是研究人員通過 RLAIF 取得的成就。

與任何形式的強化學習一樣，關(guān)鍵在于為輸出分配價值并訓練獎勵模型來預(yù)測這些價值。RLAIF 的創(chuàng)新之處在于能夠自動大規(guī)模生成這些偏好標簽，而無需依賴人工輸入。雖然所有 LLM 最終都以某種形式源自人工生成的數(shù)據(jù)，但 RLAIF 利用現(xiàn)有的 LLM 作為“老師”來指導(dǎo)訓練過程，從而無需持續(xù)進行人工標記。

使用這種方法，作者能夠從 RLAIF 獲得與 RLHF 相當甚至更好的結(jié)果。請參見下面的“無害響應(yīng)率”圖表，比較各種方法：

為了實現(xiàn)這一目標，作者開發(fā)了許多方法創(chuàng)新。

· 情境學習和提示工程： RLAIF 利用情境學習和精心設(shè)計的提示來從教師 LLM 那里獲取偏好信息。這些提示提供背景、示例(用于小樣本學習)和要評估的樣本。教師 LLM 的輸出然后作為獎勵信號。

· 思路鏈推理：為了提高教師法學碩士的推理能力，RLAIF 采用思路鏈 (CoT) 提示。雖然推理過程本身不直接使用，但它可以讓教師法學碩士做出更明智、更細致的偏好判斷。

· 解決位置偏見：為了減輕響應(yīng)順序?qū)處熎玫挠绊?，RLAIF 對從具有不同響應(yīng)順序的多個提示中獲得的偏好進行平均。

為了更直接地理解這一點，想象一下你試圖訓練的人工智能是一個學生，通過連續(xù)的反饋循環(huán)學習和改進。然后想象一個已經(jīng)經(jīng)過大量訓練的現(xiàn)成人工智能作為老師。老師獎勵學生采取某些行動、提出某些反應(yīng)等，否則懲罰學生。它這樣做的方式是通過“測試”學生，通過給學生測驗，學生必須選擇最佳答案。這些測試是通過“對比”提示生成的，其中老師通過略微改變提示來生成略有不同的答案。

例如，在代碼生成方面，一個提示可能會鼓勵 LLM 生成高效的代碼，但可能會犧牲可讀性，而另一個提示則強調(diào)代碼清晰度和文檔。然后，老師將自己的偏好指定為“基本事實”，并要求學生指出其認為的首選輸出是什么。通過比較學生在這些對比提示下的回答，RLAIF 可以評估哪個回答更符合所需屬性。

同時，學生的目標是最大化累積獎勵。因此，每次受到懲罰時，它都會決定改變自己，以免再次犯錯并再次受到懲罰。當它得到獎勵時，它的目標是強化這種行為，以便將來更有可能重現(xiàn)相同的反應(yīng)。這樣，在連續(xù)的測驗中，學生會變得越來越好，受到的懲罰越來越少。雖然懲罰永遠不會降為零，但學生確實會收斂到某個最小值，這代表了它能夠?qū)崿F(xiàn)的最佳表現(xiàn)。從那里開始，學生做出的未來推理可能比不使用 RLAIF 時質(zhì)量高得多。

評估合成(LLM 生成的)偏好數(shù)據(jù)對于有效對齊至關(guān)重要。RLAIF 使用“自我獎勵”分數(shù)，該分數(shù)比較對比提示下兩個響應(yīng)的生成概率。該分數(shù)反映了每個響應(yīng)與所需屬性的相對對齊程度。最后，直接偏好優(yōu)化 (DPO) 是一種高效的 RL 算法，它利用這些自我獎勵分數(shù)來優(yōu)化學生模型，鼓勵其生成符合人類價值觀的響應(yīng)。DPO 直接優(yōu)化 LLM 以獲得首選響應(yīng)，而無需明確訓練單獨的獎勵模型。

RLAIF 實際應(yīng)用：應(yīng)用和優(yōu)勢

RLAIF 的多功能性擴展到各種任務(wù)，包括摘要、對話生成和代碼生成。研究表明，RLAIF 可以實現(xiàn)與 RLHF 相當甚至更好的性能，同時顯著減少對人工注釋的依賴。這意味著可以大幅節(jié)省成本并縮短迭代周期，這使得 RLAIF 對于快速發(fā)展的 LLM 開發(fā)特別有吸引力。

此外，RLAIF 為未來“閉環(huán)”法學碩士改進打開了大門。隨著學生模型通過 RLAIF 變得更加一致，反過來，它可以用作后續(xù) RLAIF 迭代的更可靠的教師模型。這形成了一個正反饋循環(huán)，有可能在無需額外人工干預(yù)的情況下持續(xù)改進法學碩士的一致性。

那么如何利用 RLAIF?如果你已經(jīng)有了 RL 管道，這其實很簡單：

1. 提示集：從一組旨在引發(fā)所需行為的提示開始。或者，您可以利用現(xiàn)成的 LLM 來生成這些提示。

2. 對比提示：對于每個提示，創(chuàng)建兩個略有不同的版本，強調(diào)目標行為的不同方面(例如，有用性與安全性)。 LLM 也可以自動執(zhí)行此過程。

3. 響應(yīng)生成：捕獲學生 LLM 對每個提示變化的響應(yīng)。

4. 偏好引出：創(chuàng)建元提示，以針對每個提示-響應(yīng)對從老師 LLM 處獲取偏好信息。

5. RL 管道集成：利用現(xiàn)有 RL 管道中生成的偏好數(shù)據(jù)來指導(dǎo)學生模型的學習和優(yōu)化。

挑戰(zhàn)與限制

盡管 RLAIF 潛力巨大，但它仍面臨需要進一步研究的挑戰(zhàn)。人工智能注釋的準確性仍然令人擔憂，因為教師 LLM 的偏見可能會傳播到學生模型中。此外，這些偏好數(shù)據(jù)中包含的偏見最終可能會在教師 LLM 中“結(jié)晶”，這使得事后很難消除。此外，研究表明，與 RLAIF 一致的模型有時會生成事實不一致或連貫性降低的響應(yīng)。這需要探索技術(shù)來改善生成文本的事實基礎(chǔ)和整體質(zhì)量。

解決這些問題需要探索提高人工智能反饋的可靠性、質(zhì)量和客觀性的技術(shù)。

此外，RLAIF 的理論基礎(chǔ)需要仔細研究。雖然自我獎勵分數(shù)的有效性已被證實，但仍需要進一步分析以了解其局限性并完善其基本假設(shè)。

新興趨勢和未來研究

RLAIF 的出現(xiàn)引發(fā)了令人興奮的研究方向。將其與其他 RL 方法(如執(zhí)行反饋強化學習 (RLEF))進行比較，可以深入了解它們各自的優(yōu)缺點。

一個方向涉及研究細粒度反饋機制，該機制在單個 token 級別提供更細粒度的獎勵，從而可能帶來更精確和更細微的對齊結(jié)果。另一個有希望的途徑是探索多模態(tài)信息的集成，結(jié)合來自圖像和視頻的數(shù)據(jù)來豐富對齊過程并促進對 LLM 的更全面理解。從人類學習中汲取靈感，研究人員也在探索課程學習原則在 RLAIF 中的應(yīng)用，逐步增加任務(wù)的復(fù)雜性以提高對齊過程的效率和有效性。

此外，研究 RLAIF 中正反饋循環(huán)的潛力，從而實現(xiàn)無需人工干預(yù)的 LLM 持續(xù)改進，這代表著朝著更加自主和自我完善的 AI 生態(tài)系統(tǒng)邁出了重要一步。

此外，通過將反饋融入現(xiàn)實世界，可能有機會提高這種方法的質(zhì)量。例如，如果代理能夠執(zhí)行代碼、進行現(xiàn)實世界的實驗或與機器人系統(tǒng)集成以在現(xiàn)實世界中“實例化”反饋以捕獲更客觀的反饋，它將能夠捕獲更準確、更可靠的偏好信息，而不會失去擴展優(yōu)勢。

然而，道德考量仍然至關(guān)重要。由于 RLAIF 使 LLM 能夠塑造自己的定位，因此確保負責任的開發(fā)和部署至關(guān)重要。建立強有力的保障措施以防止?jié)撛诘臑E用并減輕從教師模型中繼承的偏見對于建立信任和確保這項技術(shù)的道德進步至關(guān)重要。如前所述，RLAIF 有可能傳播和放大源數(shù)據(jù)中存在的偏見，在擴展這種方法之前必須仔細檢查這些偏見。

結(jié)論：RLAIF 是實現(xiàn) AI 協(xié)調(diào)發(fā)展的墊腳石

RLAIF 提供了一種強大而有效的 LLM 對齊方法，與傳統(tǒng)的 RLHF 方法相比具有顯著的優(yōu)勢。它的可擴展性、成本效益和自我改進潛力為人工智能發(fā)展的未來帶來了巨大的希望。在承認當前挑戰(zhàn)和局限性的同時，正在進行的研究工作正在積極為更可靠、客觀和合乎道德的 RLAIF 框架鋪平道路。隨著我們繼續(xù)探索這一令人興奮的前沿，RLAIF 將成為邁向未來的墊腳石，在未來，LLM 將與人類價值觀和期望無縫融合，充分釋放人工智能的潛力，造福社會。