當(dāng)前位置:首頁 > 智能硬件 > 人工智能AI
[導(dǎo)讀] 紐約大學(xué)心理學(xué)與認(rèn)知科學(xué)教授馬庫斯最近和人工智能企業(yè)“深層思維”(DeepMind)杠上了。繼前不久在推特(Twitter)上質(zhì)疑美國通用人工智能研究組織OpenAI的解魔方機(jī)械手之后,近日他又

紐約大學(xué)心理學(xué)與認(rèn)知科學(xué)教授馬庫斯最近和人工智能企業(yè)“深層思維”(DeepMind)杠上了。繼前不久在推特(Twitter)上質(zhì)疑美國通用人工智能研究組織OpenAI的解魔方機(jī)械手之后,近日他又對“深層思維”新推出的《星際爭霸2》智能體“阿爾法星”(AlphaStar)進(jìn)化版提出六大質(zhì)疑。此次,他的質(zhì)疑點(diǎn)并不是游戲表現(xiàn)本身,而是指向了更高的層面:未來通用智能研究的意義。

近年最酷成果都來自深度強(qiáng)化學(xué)習(xí)

此次OpenAI推出的解魔方機(jī)器手,并不是像以往一樣使用專業(yè)算法來解決某一個(gè)特定任務(wù)(如果換一個(gè)任務(wù),還需要重新編程),而是通過某種學(xué)習(xí)方法,對機(jī)器人進(jìn)行訓(xùn)練,讓機(jī)械手具備類人手的解決問題的能力。但馬庫斯卻認(rèn)為這個(gè)成果描述有誤導(dǎo),更恰當(dāng)?shù)拿枋鰬?yīng)該是“用強(qiáng)化學(xué)習(xí)操縱魔方”或者是“用靈巧的機(jī)器人手操縱物體的進(jìn)展”。

“馬庫斯過于強(qiáng)調(diào)‘用強(qiáng)化學(xué)習(xí)操縱魔方’有點(diǎn)挑剔字眼,其實(shí)OpenAI魔方機(jī)器手和‘深層思維’發(fā)布的《星際爭霸2》智能體‘阿爾法星’進(jìn)化版都使用了深度強(qiáng)化學(xué)習(xí)技術(shù)。深度強(qiáng)化學(xué)習(xí)是目前公認(rèn)的在現(xiàn)有技術(shù)中最有可能實(shí)現(xiàn)通用人工智能的技術(shù)。”天津大學(xué)智能與計(jì)算學(xué)部軟件學(xué)院副教授郝建業(yè)解釋說,目前機(jī)器學(xué)習(xí)有三大分支,監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí),深度學(xué)習(xí)屬于監(jiān)督學(xué)習(xí)里目前最主流的一類技術(shù)。深度強(qiáng)化學(xué)習(xí)是深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的融合,是將深度神經(jīng)網(wǎng)絡(luò)整合到強(qiáng)化學(xué)習(xí)框架當(dāng)中。

“近幾年,深度強(qiáng)化學(xué)習(xí)發(fā)展迅猛,它在處理復(fù)雜、多方面和決策問題方面顯示出巨大的潛力。目前深度強(qiáng)化學(xué)習(xí)技術(shù)主要應(yīng)用在一些游戲、比賽中。”郝建業(yè)介紹,2016年,谷歌的“阿爾法圍棋”(AlphaGo)擊敗了世界頂級圍棋選手李世石、柯潔,轟動(dòng)一時(shí),成為人工智能領(lǐng)域的一個(gè)里程碑。“阿爾法圍棋”的核心就在于使用了深度強(qiáng)化學(xué)習(xí)算法,使得計(jì)算機(jī)能夠通過自對弈的方式不斷提升棋力。此后又有臉書(Facebook)在DOTA2游戲中打敗了頂級職業(yè)選手;CMU團(tuán)隊(duì)研發(fā)的德州撲克AI冷撲大師輕松擊敗頂級玩家。

此外,“深層思維”還運(yùn)用深度強(qiáng)化學(xué)習(xí)優(yōu)化了數(shù)據(jù)中心的耗能;谷歌則利用深度強(qiáng)化學(xué)習(xí)完成深度神經(jīng)網(wǎng)絡(luò)的自動(dòng)架構(gòu)搜索,提出了AutoML服務(wù),借此將機(jī)器學(xué)習(xí)作為一種服務(wù)推廣到千家萬戶。在我國,對于深度強(qiáng)化學(xué)習(xí)技術(shù)的應(yīng)用也不少,阿里、騰訊、百度等國內(nèi)團(tuán)隊(duì)將深度強(qiáng)化學(xué)習(xí)應(yīng)用到搜索、推薦、營銷、派單和路徑規(guī)劃等實(shí)際問題的決策中。

最有可能實(shí)現(xiàn)通用人工智能的技術(shù)

人工智能發(fā)展到現(xiàn)在的高度,技術(shù)上較大的功臣應(yīng)該屬于深度學(xué)習(xí)算法。深度學(xué)習(xí)利用多層神經(jīng)網(wǎng)絡(luò),從海量的數(shù)據(jù)中學(xué)習(xí),從而實(shí)現(xiàn)對未來的預(yù)測,并使人工智能系統(tǒng)越來越智能。目前我們應(yīng)用的安防監(jiān)控、自動(dòng)駕駛、語音識(shí)別、百度地圖等都是深度學(xué)習(xí)技術(shù)在圖像視覺、語音識(shí)別、自然語言理解等領(lǐng)域的應(yīng)用。

而強(qiáng)化學(xué)習(xí)也是目前機(jī)器學(xué)習(xí)領(lǐng)域的熱門技術(shù),與基于已知標(biāo)簽訓(xùn)練模型的監(jiān)督學(xué)習(xí)不同,強(qiáng)化學(xué)習(xí)能夠在沒有計(jì)算機(jī)的明確指示下,像人一樣實(shí)現(xiàn)自主學(xué)習(xí)。當(dāng)達(dá)到一定的學(xué)習(xí)量之后,強(qiáng)化學(xué)習(xí)系統(tǒng)就能夠預(yù)測出正確的結(jié)果?!皬?qiáng)化學(xué)習(xí)的基本思想是,學(xué)習(xí)在不同環(huán)境和不同狀態(tài)下,哪種行為能夠使得預(yù)期利益最大化。”郝建業(yè)介紹,新版“阿爾法星”智能體就采用了強(qiáng)化學(xué)習(xí)的自對戰(zhàn)技術(shù),其學(xué)習(xí)過程不需要數(shù)據(jù)標(biāo)注,而是由獎(jiǎng)勵(lì)函數(shù)進(jìn)行主導(dǎo)。智能體獲得獎(jiǎng)勵(lì)得分或贏得一場比賽,它會(huì)得到積極的反饋,智能體就會(huì)根據(jù)對戰(zhàn)的成績好壞,來調(diào)整行為動(dòng)作。這猶如嬰兒學(xué)走路,會(huì)根據(jù)產(chǎn)生的結(jié)果好壞來調(diào)整行為動(dòng)作。

目前對通用人工智能的定義主要有兩個(gè)特點(diǎn),一是端對端的學(xué)習(xí),二是任務(wù)自適應(yīng),無需人類參與調(diào)控而勝任不同的任務(wù)。深度強(qiáng)化學(xué)習(xí)可以將深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合,直接根據(jù)輸入的信息進(jìn)行控制,是一種更接近人類思維方式的人工智能技術(shù)。在與世界的正常互動(dòng)過程中,強(qiáng)化學(xué)習(xí)會(huì)通過試錯(cuò)法利用獎(jiǎng)勵(lì)來學(xué)習(xí),這跟自然學(xué)習(xí)過程非常相似。比如單手解魔方機(jī)器手,它可能需要利用深度學(xué)習(xí)的識(shí)圖技術(shù)等看到魔方,而后還需強(qiáng)化學(xué)習(xí)的模型讓機(jī)器手在不斷的試錯(cuò)過程中自主學(xué)習(xí)。在強(qiáng)化學(xué)習(xí)中,可以使用較少的訓(xùn)練信息,這樣做的優(yōu)勢是信息更充足,而且不受監(jiān)督者技能限制。深度強(qiáng)化學(xué)習(xí)朝構(gòu)建對世界擁有更高級理解的自主系統(tǒng)又邁出了一步,這也是為什么說深度強(qiáng)化學(xué)習(xí)是目前公認(rèn)的在現(xiàn)有技術(shù)中最有可能實(shí)現(xiàn)通用人工智能的技術(shù)。

未來通用人工智能還需依托腦科學(xué)發(fā)展

“雖然說深度強(qiáng)化學(xué)習(xí)技術(shù)最有可能實(shí)現(xiàn)通用人工智能,但是并不能說就一定能夠?qū)崿F(xiàn),我們離真正的通用人工智能還是有很大差距的?!焙陆I(yè)表示,深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合的時(shí)候,對現(xiàn)實(shí)情況的枚舉就變成首先需要對現(xiàn)實(shí)情況進(jìn)行模式識(shí)別,然后進(jìn)行有限模式的枚舉,從而減少計(jì)算的壓力,但是所需的數(shù)據(jù)將比其他機(jī)器學(xué)習(xí)算法要大得多。如果將場景擴(kuò)展到多智能體的深度強(qiáng)化學(xué)習(xí),那么需要的數(shù)據(jù)和算力是呈指數(shù)級上升的,目前還沒有平臺(tái)能夠提供強(qiáng)化學(xué)習(xí)所需要的海量數(shù)據(jù),無法窮舉現(xiàn)實(shí)中可能遇到的種種復(fù)雜情況。這種數(shù)據(jù)需求在很多現(xiàn)實(shí)領(lǐng)域中都是無法實(shí)現(xiàn)的。

舉例說明,比如強(qiáng)化學(xué)習(xí)需要大量的試錯(cuò),如果把單手解魔方機(jī)器手應(yīng)用到做飯的現(xiàn)實(shí)場景,那么它可能會(huì)把食材弄一地,也可能把一整袋鹽倒到鍋中,還有可能引起火災(zāi)。因此通過試錯(cuò)學(xué)習(xí)的模式,在現(xiàn)實(shí)場景中是無法實(shí)現(xiàn)的。

此外,深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)都是機(jī)器學(xué)習(xí)領(lǐng)域中最難調(diào)試成功的,它的成功案例其實(shí)不算很多,但是一旦推出,都會(huì)引起轟動(dòng)。并且,這是一個(gè)連隨機(jī)種子都會(huì)大大影響學(xué)習(xí)效果的模型框架。同樣的模型,訓(xùn)練10次可能7次是失敗的,3次是成功的。還有一點(diǎn),深度強(qiáng)化學(xué)習(xí)極其容易過擬合到智能體當(dāng)前交互的環(huán)境中,所以環(huán)境稍有改變,之前看起來表現(xiàn)出色的智能體,很可能就會(huì)犯低級錯(cuò)誤。

“人類認(rèn)識(shí)事物的時(shí)候,一般都是通過數(shù)據(jù)進(jìn)行因果推理和判斷,才得出相應(yīng)的解決方案。而目前的人工智能系統(tǒng)卻并不能實(shí)現(xiàn)這種因果推導(dǎo)?!焙陆I(yè)表示,可能未來通用人工智能的發(fā)展,還需要依托于腦科學(xué)的發(fā)展,目前我們對人腦的認(rèn)知還處于非常初級的階段。大腦對事物的認(rèn)知過程、解決問題的過程以及思考的能力等機(jī)制還都不清楚,因此,目前人工智能的發(fā)展,離這種真正能模擬人類智能思考的通用人工智能還有很長的路要走。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動(dòng)力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉