當前位置:首頁 > 物聯(lián)網(wǎng) > 智能應用
[導讀]大型語言模型(LLMS)以其產(chǎn)生連貫的文本,翻譯語言甚至進行對話的能力而破壞了AI。但是,盡管具有令人印象深刻的能力,但在推理和理解復雜環(huán)境方面,LLM仍然面臨重大挑戰(zhàn)。

大型語言模型(LLMS)以其產(chǎn)生連貫的文本,翻譯語言甚至進行對話的能力而破壞了AI。但是,盡管具有令人印象深刻的能力,但在推理和理解復雜環(huán)境方面,LLM仍然面臨重大挑戰(zhàn)。

這些模型雖然善于識別和復制大量培訓文本的模式,但經(jīng)常在需要真正理解和邏輯推理的任務上掙扎。這可能會導致諸如長時間對話中的不一致之處,連接不同信息的錯誤以及在維持有關擴展敘述的上下文時遇到的困難。了解這些推理問題對于改善LLM的未來發(fā)展和應用至關重要。

關鍵推理挑戰(zhàn)

缺乏真正的理解

語言模型通過根據(jù)他們在培訓期間從廣泛的數(shù)據(jù)中學到的模式來預測下一個關鍵字來運行。但是,他們?nèi)狈Νh(huán)境和討論的概念的深刻,內(nèi)在的理解。結果,他們可能會發(fā)現(xiàn)需要真正理解挑戰(zhàn)的復雜推理任務。

上下文限制

盡管現(xiàn)代語言模型在掌握短篇小說方面表現(xiàn)出色,但它們通常很難在擴展的對話或更大的文本段上保持連貫性和背景。當模型必須從對話或文本的各個部分鏈接信息時,這可能會導致推理錯誤。在漫長的討論或復雜的敘述中,該模型可能會忘記或誤解早期的細節(jié),從而導致矛盾或不準確的結論。

無法執(zhí)行計劃

許多推理任務涉及邏輯的多個步驟或隨著時間的推移跟蹤許多事實的能力。當前的語言模型通常在需要長期連貫性或多步邏輯推論的任務上掙扎。他們可能難以解決需要多個邏輯操作的難題。

回答無法解決的問題

回答無法解決的問題是LLM的一個關鍵挑戰(zhàn),并突出了其推理能力的局限性。當提出一個無法解決的問題時,例如悖論,沒有明確答案的問題,或與已建立的事實相矛盾的問題時,LLM可能會難以提供有意義或連貫的回答。該模型不能意識到問題的固有不可能,而是嘗試根據(jù)已經(jīng)訓練的數(shù)據(jù)中的模式提供解決方案,這可能會導致誤導或錯誤的答案。

國家空間計算復雜性

一些問題需要探索從初始狀態(tài)到目標狀態(tài)的所有可能狀態(tài)。例如,旅行計劃可能涉及許多選擇,并且有了其他限制,例如預算和旅行方式,搜索狀態(tài)空間可以接近多項式爆炸。語言模型計算和響應所有這些可能性是不切實際的。取而代之的是,它將依靠它所學會的啟發(fā)式方法提供可能是不正確的可行解決方案。

不正確推理的真實示例

讓我們提出一個問題:

純文本

1

“一個裝滿了8個水的水罐,還有兩個空尺寸5和5的空壺。

2

求解器必須倒入水,以使第一壺和第二壺都包含4個單元,而第三壺則是空的。

3

當源壺為空或目的地水罐已滿,以先到者為準時,每個步驟將水從源果罐倒入目的地水罐停止。

從下面的回答中,我們可以看到,今天存在的LLM給出了錯誤的答案。這個問題實際上是無法解決的,但是所有LLM都試圖給出一個答案,就好像他們找到了解決方案一樣。

Chatgpt的回應

Google的回應

Bing Copilot的回應

LLMS背誦與推理

但是,如果您要將問題更改為“兩個空的尺寸為5和4”,而不是“兩個空的尺寸5和5”,那么所有LLM都會正確回答記憶的問題。

研究人員建議什么來幫助推理?

一些研究人員專注于改進數(shù)據(jù)集并使用思想鏈方法,而另一些研究人員則建議使用外部驗證者和求解器。這些技術中的每一個旨在通過解決問題的不同維度來帶來改進。

改進數(shù)據(jù)集

一些研究人員建議提高用于培訓語言模型的數(shù)據(jù)的質(zhì)量和多樣性。通過策劃更全面和多樣化的數(shù)據(jù)集,模型可以從更廣泛的上下文和示例中學習。這種方法旨在提高模型處理各種情況的能力。

經(jīng)過思考鏈

該技術涉及培訓模型遵循結構化的推理過程,類似于人類思維。通過鼓勵模型明確地生成中間的推理步驟,研究人員希望提高模型處理復雜的推理任務并提供更準確,邏輯上一致的響應的能力。

使用外部驗證器

為了解決產(chǎn)生錯誤或誤導性信息的模型問題,一些研究人員提出了整合外部驗證機制。這些驗證者可以針對受信任的來源進行跨檢查模型的輸出,或者在向用戶提交信息之前,使用其他算法來驗證信息的準確性。這有助于確保生成的內(nèi)容可靠并且實際上是正確的。

使用求解器

另一種方法涉及合并旨在處理特定類型推理任務的專業(yè)求解器。這些求解器可用于執(zhí)行計算,求解方程或過程邏輯語句,以補充語言模型的功能。通過將這些任務委派給求解器,總體系統(tǒng)可以實現(xiàn)更準確和可靠的結果。

結論

盡管在文本生成和理解等領域取得了令人印象深刻的進步,但當前的語言模型由于無法完全掌握含義,保持一致的環(huán)境并僅依靠大型但潛在有缺陷的培訓數(shù)據(jù)提取的模式而在復雜的多層推理任務中掙扎,因此它們的多層推理任務掙扎。為了解決這些限制,未來的模型可能需要更復雜的體系結構,以及正在進行的常識推理研究。

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉