Facebook CTO:人工智能對VR發(fā)展至關(guān)重要
北京時(shí)間11月14日消息,現(xiàn)在我們已經(jīng)可以將神經(jīng)網(wǎng)絡(luò)放在掌中使用。上周,F(xiàn)acebook推出一個(gè)新工具,叫作“Style Transfer”,它可以實(shí)時(shí)為手機(jī)視頻添加視覺效果。處理之后,視頻的風(fēng)格與《辛普森一家》、凡高畫作有些類似,新工具正是利用AI(人工智能)技術(shù)才能做到這點(diǎn),一般來說,AI需要大理服務(wù)器才能運(yùn)行。去年,谷歌為“谷歌翻譯”程序引進(jìn)了神經(jīng)網(wǎng)絡(luò)技術(shù),現(xiàn)在Facebook已經(jīng)開發(fā)了一個(gè)名為 “Caffe2Go”的深度學(xué)習(xí)系統(tǒng),該系統(tǒng)高度濃縮,可以在iOS、Android移動(dòng)APP上運(yùn)行。
最近,F(xiàn)acebook CTO邁克·斯拉洛普夫(Mike Schroepfer)接受了《新科學(xué)人》的采訪,他談到了公司AI技術(shù)的發(fā)展,AI對溝通的影響,F(xiàn)acebook News Feed(信息流)受到了AI的影響,VR也受到了AI的影響。
下面是對話全文:
問:要讓神經(jīng)網(wǎng)絡(luò)在移動(dòng)設(shè)備上運(yùn)行,需要足夠高的效率,如何才能做到呢?
答:神經(jīng)網(wǎng)絡(luò)是一系列步驟的結(jié)果,在每一個(gè)步驟都會(huì)處理信息,為下一個(gè)步驟提供內(nèi)容,站在算法角度看,我們擁有一個(gè)目標(biāo):得到同樣的結(jié)果,但是要將步驟的數(shù)量降到最小。開發(fā)更小的模型,生成相似的結(jié)果,這就是算法所面臨的挑戰(zhàn)。
專門針對移動(dòng)設(shè)備優(yōu)化算法,這是第二部分。即使擁有更小的神經(jīng)網(wǎng)絡(luò)模型,如果直接拿過來植入移動(dòng)手機(jī),效果也不好。我們必須讓科學(xué)家配對,一些人尋找辦法壓縮模型,一些人擅長在芯片層面做優(yōu)化,一些人嘗試了許多不同的技術(shù),優(yōu)化各個(gè)部分,讓算法在手機(jī)上跑得更快,我們要將這些人配對。
問:修改視頻,讓它變得更像藝術(shù)品,這樣做的確有趣,我們還能用AI做其它事情嗎?
答:看起來似乎只是為了好玩,甚至有些愚蠢,實(shí)際不是的,我們之所以關(guān)注這一點(diǎn)有一個(gè)重要的原因:當(dāng)你開發(fā)一些新東西,延遲會(huì)將有趣的東西變成難以處理的東西。因?yàn)闀r(shí)間延遲的不同,產(chǎn)品要么有趣,要么有創(chuàng)造力,或者干脆無法使用。
除此之外還有其它一些原因。我們制作了一些演示樣本,在樣本中,你可以將應(yīng)用程序與目標(biāo)偵測結(jié)合起來,如果想為視頻的前景和背景添加不同的效果,你完全可以做到。
問:Facebook訓(xùn)練的神經(jīng)網(wǎng)絡(luò)還用在什么地方?
答:用在許多不同的地方。比如用在翻譯中,每天用戶上傳幾十億張圖片,我們用神經(jīng)網(wǎng)絡(luò)給圖片添加題注,如果你的視力有問題,希望圖片可以告訴你它是什么,神經(jīng)網(wǎng)絡(luò)可以實(shí)現(xiàn)。在信息流排序時(shí),我們也用到了神經(jīng)網(wǎng)絡(luò),你看到的故事可能會(huì)有成千上萬條,但真正閱讀的只有10條、20條或者30條,我們要向你展示最好的故事。我們還用神經(jīng)網(wǎng)絡(luò)偵測垃圾郵件,如果有人在Facebook分享一個(gè)鏈接,這個(gè)鏈接已經(jīng)失效,我們可以發(fā)現(xiàn),然后刪除它。
問:你之前曾經(jīng)表示,VR將會(huì)在社交互動(dòng)中扮演重要角色。Facebook AI能夠幫上忙嗎?
答:要讓VR實(shí)用,AI是一門關(guān)鍵技術(shù)。在真實(shí)世界中,我們需要搞清頭部、手的位置,將它們的位置在VR世界中繪制出來,這就涉及到計(jì)算機(jī)視覺與VR的問題。如果沒有它們,系統(tǒng)無法運(yùn)行。今天我們已經(jīng)可以實(shí)現(xiàn),但在10年與20年之前,你很難做到。
我們不妨思考一個(gè)更深入的問題:如何將真實(shí)的替身放進(jìn)VR世界。舉個(gè)例子,我們與某個(gè)人呆在VR世界,他在笑,我必須偵測到他的笑,VR中的替身也應(yīng)該笑。當(dāng)某人講話時(shí),我們應(yīng)該分析語言表情,讓VR替身的嘴看起來跟真的一樣,和真人講話一樣,而不是毫無反應(yīng),沒有動(dòng)作。如果在整個(gè)過程中VR替身很冷漠,我們就會(huì)缺少“存在感”。
從長遠(yuǎn)來看,未來所有的系統(tǒng)都會(huì)建立在智能代理之上,它們就是信息機(jī)器人,或者是家中可以交流的東西。將這些功能放在VR環(huán)境中再合適不過,因?yàn)樗鼈兛梢詾槟銓?dǎo)航,讓你穿過眾多的虛擬世界。你可以說:“嗨,帶我去火星。”或者說:“帶我去看看我的朋友Joe。”虛擬代理聽到命令就會(huì)帶你去,不需要點(diǎn)擊菜單,不需要移動(dòng)按鈕。對于虛擬助手來說,VR是一個(gè)很適合的存在地,只是要實(shí)現(xiàn)有些遙遠(yuǎn)。
問:怎樣才能實(shí)現(xiàn)這一目標(biāo)?
答:在AI領(lǐng)域,語音識(shí)別的問題已經(jīng)得到了很好的解決,該技術(shù)已經(jīng)很不錯(cuò)了,但是在AI領(lǐng)域還有一個(gè)更大的挑戰(zhàn):提高自然語言理解能力,消除歧義。當(dāng)我下達(dá)命令說:“帶我去火星。”到底是什么意思?它是某一款游戲嗎?是不是《火星救援》中的拖車?我說的到底是什么意思?對于AI來說這是一個(gè)難題。
如果系統(tǒng)很實(shí)用,知道我想要的到底是什么,那就顯得相當(dāng)強(qiáng)大,像魔法一樣。如果給出的答案是錯(cuò)誤的,就會(huì)讓人很沮喪。正因如此,我們要開發(fā)一套系統(tǒng),讓它更實(shí)用,否則人們就不想要它。對于AI而言,這是一個(gè)問題:開發(fā)一套系統(tǒng),讓它可以按人類的方式理解語言。
問:等到某一天如果我們可以將神經(jīng)網(wǎng)絡(luò)裝進(jìn)口袋,那時(shí)會(huì)怎樣呢?你能描繪一下嗎?
答:有一種資源很寶貴,一但失去無法再獲得,它就是時(shí)間。日復(fù)一日,年復(fù)一年,時(shí)間不斷流逝,再也無法回來。有了AI,我們可以將時(shí)間用在自己更關(guān)注的事情上。我可以花時(shí)間多學(xué)3種語言,從而與家人更好溝通;如果有一套系統(tǒng),它可以自動(dòng)翻譯,我就沒有必要學(xué)習(xí),我會(huì)有更多的時(shí)間與家人相處,我也可以將時(shí)間利用起來創(chuàng)作音樂,追求個(gè)人愛好,或者工作,做什么事情都行。
我有一個(gè)希望,讓人們不再將時(shí)間浪費(fèi)在無關(guān)重要的事情上,因?yàn)槲覀儞碛幸惶紫到y(tǒng),它可以照看我們,讓我們專注于自己最關(guān)心的事情。(編譯/虎濤)