谷歌科學家杰夫迪恩：人工智能離普及還有多遠？

時間：2020-08-16 19:09:02

關鍵字：人工智能智能感知機器學習

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]近日，“谷歌大腦”團隊的創(chuàng)始人和負責人之一的杰夫·迪恩接受了《財富》雜志專訪，并談到了人工智能領域的研究進展及其帶來的挑戰(zhàn)，以及人工智能技術在谷歌產(chǎn)品中的應用。

近日，“谷歌大腦”團隊的創(chuàng)始人和負責人之一的杰夫·迪恩接受了《財富》雜志專訪，并談到了人工智能領域的研究進展及其帶來的挑戰(zhàn)，以及人工智能技術在谷歌產(chǎn)品中的應用。

谷歌科學家杰夫·迪恩：人工智能離普及還有多遠？

　　問：在推動人工智能領域研究的過程中，科研人員主要面臨哪些挑戰(zhàn)？

　　人類的學習有大量內(nèi)容來自無監(jiān)督式的學習，也就是說，你只是在觀察周圍的世界，理解事物的道理。這是機器學習研究的一個非常活躍的領域，但目前研究的進展與監(jiān)督式學習還是不能比擬的。

　　也就是說，無監(jiān)督式學習指的是一個人通過觀察和感知進行的學習，如果計算機也能自行進行觀察和感知，就能幫助我們解決更復雜的問題了？

　　是的，人類的洞察力主要是通過無監(jiān)督式學習訓練出來的。你從小就會觀察世界，但偶爾你也會得到一些監(jiān)督式學習的信號，比如有人會告訴你：“那是一只長頸鹿”或“那是一輛小汽車”。你獲了這些少量的監(jiān)督式信息后，你的心智模式就會自然地對其產(chǎn)生回應。

　　我們需要將監(jiān)督式和非監(jiān)督式學習更緊密地結合起來。不過以我們大部分機器學習系統(tǒng)的工作模式來看，我們現(xiàn)在還沒有完全進展到那個地步。

　　你能解釋一下什么是“強化學習”技術嗎？

　　“強化學習”背后的理念是，你并不一定理解你可能要采取的行動，所以你會先嘗試你應該采取的一系列行動，比如你覺得某個想法很好，就可以先嘗試一下，然后觀察外界的反應。這就好比玩桌游，你可以針對對手的舉動做出回應。最終在一系列的類似行為之后，你就會獲得某種獎勵信號。

　　強化學習的理念就是，在你獲得獎勵信號的同時，可以將功勞或過錯分配給你在嘗試過程中采取的所有行動。這項技術在今天的某些領域的確非常有效。

　　我覺得強化學習面臨的一些挑戰(zhàn)主要集中在當你可以采取的行為狀態(tài)極為寬泛的時候。在真實世界中，人類在任何給定的時候都可以采取一系列極為寬泛的行為。而在你玩桌游的時候，你能采取的只有有限的一系列行為，因為游戲的規(guī)則限制了你，而且獎勵信號也要明確得多——不是贏就是輸。

　　如果我的目標是泡一杯咖啡之類的，那我可能采取的潛在行為就相當寬泛了，而獎勵信號也沒有那么明顯了。

　　不過你們還是可以將步驟分解開，對吧？比如，如果你想泡一杯咖啡，你就可以通過學習得知，如果你在沖泡之前不將咖啡豆充分研磨，泡出來的咖啡就不會好喝。

　　對。我認為增強學習的一個特點就是它需要探索，所以在物理系統(tǒng)環(huán)境下使用它往往有些困難。不過我們已經(jīng)開始嘗試在機器人上使用這種技術了。當機器人要需要采取某些行動中，它在特定一天內(nèi)可以采取的行為是有限的。但是如果使用計算機模擬的話，就可以輕易地使用大量計算機獲得上百萬個樣本。

　　谷歌已經(jīng)開始將強化學習技術用在核心搜索產(chǎn)品上了嗎？

　　我們通過與DeepMind(一家人工智能領域的創(chuàng)業(yè)公司，2014年被谷歌收購)和我們的數(shù)據(jù)中心運營人員的共同努力，已經(jīng)將強化學習技術應用到了我們的核心產(chǎn)品上。他們還將這項技術運用在了數(shù)據(jù)中心的空調溫控系統(tǒng)上，在大大降低能耗的同時，達到了相同的、安全的冷卻效果和運行條件。它能探索溫控旋鈕的哪種設置是合理的，以及當你改變運行條件時應該如何做出響應。

　　通過強化學習技術，他們能夠探索這18個或者更多個溫控旋鈕的最優(yōu)設置，而這可能是連專門負責溫控的工作人員都沒有做過的。熟悉溫控系統(tǒng)的人可能會覺得：“這個設置真奇怪。”然而事實上它的工作效果非常好。

　　什么樣的任務更適合應用強化學習技術？

　　上面說的數(shù)據(jù)中心這個案例之所以效果很好，就是因為在一段給定時間內(nèi)并沒有太多不同的行為。溫控系統(tǒng)大概有18個溫控旋鈕，你可以把一個旋鈕調高或調低，結果都是很容易衡量的。只要你在可以接受的適當溫度范圍內(nèi)運行，你的能耗利用率就會更好。從這個角度看，這幾乎是一個理想的強化學習技術的使用案例。