谷歌科學家杰夫·迪恩:人工智能離普及還有多遠?
問:在推動人工智能領域研究的過程中,科研人員主要面臨哪些挑戰(zhàn)?
人類的學習有大量內(nèi)容來自無監(jiān)督式的學習,也就是說,你只是在觀察周圍的世界,理解事物的道理。這是機器學習研究的一個非常活躍的領域,但目前研究的進展與監(jiān)督式學習還是不能比擬的。
也就是說,無監(jiān)督式學習指的是一個人通過觀察和感知進行的學習,如果計算機也能自行進行觀察和感知,就能幫助我們解決更復雜的問題了?
是的,人類的洞察力主要是通過無監(jiān)督式學習訓練出來的。你從小就會觀察世界,但偶爾你也會得到一些監(jiān)督式學習的信號,比如有人會告訴你:“那是一只長頸鹿”或“那是一輛小汽車”。你獲了這些少量的監(jiān)督式信息后,你的心智模式就會自然地對其產(chǎn)生回應。
我們需要將監(jiān)督式和非監(jiān)督式學習更緊密地結合起來。不過以我們大部分機器學習系統(tǒng)的工作模式來看,我們現(xiàn)在還沒有完全進展到那個地步。
你能解釋一下什么是“強化學習”技術嗎?
“強化學習”背后的理念是,你并不一定理解你可能要采取的行動,所以你會先嘗試你應該采取的一系列行動,比如你覺得某個想法很好,就可以先嘗試一下,然后觀察外界的反應。這就好比玩桌游,你可以針對對手的舉動做出回應。最終在一系列的類似行為之后,你就會獲得某種獎勵信號。
強化學習的理念就是,在你獲得獎勵信號的同時,可以將功勞或過錯分配給你在嘗試過程中采取的所有行動。這項技術在今天的某些領域的確非常有效。
我覺得強化學習面臨的一些挑戰(zhàn)主要集中在當你可以采取的行為狀態(tài)極為寬泛的時候。在真實世界中,人類在任何給定的時候都可以采取一系列極為寬泛的行為。而在你玩桌游的時候,你能采取的只有有限的一系列行為,因為游戲的規(guī)則限制了你,而且獎勵信號也要明確得多——不是贏就是輸。
如果我的目標是泡一杯咖啡之類的,那我可能采取的潛在行為就相當寬泛了,而獎勵信號也沒有那么明顯了。
不過你們還是可以將步驟分解開,對吧?比如,如果你想泡一杯咖啡,你就可以通過學習得知,如果你在沖泡之前不將咖啡豆充分研磨,泡出來的咖啡就不會好喝。
對。我認為增強學習的一個特點就是它需要探索,所以在物理系統(tǒng)環(huán)境下使用它往往有些困難。不過我們已經(jīng)開始嘗試在機器人上使用這種技術了。當機器人要需要采取某些行動中,它在特定一天內(nèi)可以采取的行為是有限的。但是如果使用計算機模擬的話,就可以輕易地使用大量計算機獲得上百萬個樣本。
谷歌已經(jīng)開始將強化學習技術用在核心搜索產(chǎn)品上了嗎?
我們通過與DeepMind(一家人工智能領域的創(chuàng)業(yè)公司,2014年被谷歌收購)和我們的數(shù)據(jù)中心運營人員的共同努力,已經(jīng)將強化學習技術應用到了我們的核心產(chǎn)品上。他們還將這項技術運用在了數(shù)據(jù)中心的空調溫控系統(tǒng)上,在大大降低能耗的同時,達到了相同的、安全的冷卻效果和運行條件。它能探索溫控旋鈕的哪種設置是合理的,以及當你改變運行條件時應該如何做出響應。
通過強化學習技術,他們能夠探索這18個或者更多個溫控旋鈕的最優(yōu)設置,而這可能是連專門負責溫控的工作人員都沒有做過的。熟悉溫控系統(tǒng)的人可能會覺得:“這個設置真奇怪。”然而事實上它的工作效果非常好。
什么樣的任務更適合應用強化學習技術?
上面說的數(shù)據(jù)中心這個案例之所以效果很好,就是因為在一段給定時間內(nèi)并沒有太多不同的行為。溫控系統(tǒng)大概有18個溫控旋鈕,你可以把一個旋鈕調高或調低,結果都是很容易衡量的。只要你在可以接受的適當溫度范圍內(nèi)運行,你的能耗利用率就會更好。從這個角度看,這幾乎是一個理想的強化學習技術的使用案例。