據(jù)報道,OpenAI是一家以人工智能和機器學習研究而聞名的公司,其周二展示了能解開三階魔方的機械手。這套名為Dactyl的機械手是通過使用稱為自動域隨機化(ADR)和強化學習的新技術(shù)進行訓練的。在過去的Dota 2中,Dactyl所采用的強化學習算法已經(jīng)證明了它可以對抗人類對手。
OpenAI機械手“學習”解開三階魔方技術(shù)
名為Dactyl的機械手是通過使用稱為自動域隨機化(ADR)和強化學習的新技術(shù)進行訓練的。在過去的Dota 2中,Dactyl所采用的強化學習算法已經(jīng)證明了它可以對抗人類對手。
新技術(shù)ADR通過生成越來越難以訓練的Dactyl訓練場景來幫助教機械手解決古老的難題。自動域隨機化的方式如下:
ADR從單一的非隨機環(huán)境開始,在該環(huán)境中,神經(jīng)網(wǎng)絡學習了如何解開三階魔方。隨著神經(jīng)網(wǎng)絡在任務中變得更好并達到性能閾值,域隨機化的數(shù)量會自動增加。
由于神經(jīng)網(wǎng)絡現(xiàn)在必須學會將其推廣到更隨機的環(huán)境,因此這使任務更加艱巨。神經(jīng)網(wǎng)絡不斷學習,直到再次超過性能閾值,然后再進行更多隨機化,然后重復該過程。
團隊認為,ADR是一項重大進步,因為逐步困難的訓練模擬的建立“使我們擺脫了對真實世界的準確模型的束縛,并使在模擬中學習到的神經(jīng)網(wǎng)絡的轉(zhuǎn)移能夠應用于真實世界。 ”
有些人并不完全相信增強學習是否是未來此類機器人的方法。Berenson在談到該主題時暗示了一種更傳統(tǒng)的方法:“到今天結(jié)束時,將會有一些學習過程-可能是強化學習。但是我認為那些過程實際上應該晚得多。”