隨著生成對(duì)抗網(wǎng)絡(luò)的發(fā)展,可能讓網(wǎng)絡(luò)上到處都是個(gè)性化定制的內(nèi)容?
掃描二維碼
隨時(shí)隨地手機(jī)看文章
2014年,Ian Goodfellow提出生成對(duì)抗網(wǎng)絡(luò)(GAN)的概念, 從那之后,生成對(duì)抗網(wǎng)絡(luò)就一直是學(xué)術(shù)界的研究熱點(diǎn), Yann LeCun還稱之為”過(guò)去十年間,機(jī)器學(xué)習(xí)領(lǐng)域最讓人激動(dòng)的點(diǎn)子”。GAN目前的發(fā)展如何,能做到什么,未來(lái)又有哪些展望?本文編譯自hackernoon的原題為“The New Neural Internet is Coming”的文章。
GAN是什么 - 生成對(duì)抗網(wǎng)絡(luò)的發(fā)展過(guò)程
神經(jīng)網(wǎng)絡(luò)是最近很流行的科技熱詞,其核心用途是分類。分類器是自動(dòng)對(duì)輸入值進(jìn)行分類的機(jī)器。分類器輸入的是一個(gè)數(shù)值向量,叫做特征(向量)。分類器的輸出也是數(shù)值,代表分類的結(jié)果。分類器的目標(biāo)就是讓正確分類的比例盡可能高。而生成對(duì)抗網(wǎng)絡(luò)(GAN)由一個(gè)生成網(wǎng)絡(luò)與一個(gè)判別網(wǎng)絡(luò)組成,通過(guò)讓兩個(gè)神經(jīng)網(wǎng)絡(luò)相互博弈的方式進(jìn)行學(xué)習(xí)。是非監(jiān)督式學(xué)習(xí)的一種方法。
生成網(wǎng)絡(luò)從潛在空間(latent space)中隨機(jī)采樣作為輸入,其輸出結(jié)果需要盡量模仿訓(xùn)練集里的真實(shí)樣本。
判別網(wǎng)絡(luò)的輸入則為真實(shí)樣本或生成網(wǎng)絡(luò)的輸出,其目的是將生成網(wǎng)絡(luò)的輸出從真實(shí)樣本中盡可能分辨出來(lái)。
生成網(wǎng)絡(luò)則要盡可能地欺騙判別網(wǎng)絡(luò)。
兩個(gè)網(wǎng)絡(luò)相互對(duì)抗、不斷調(diào)整參數(shù),最終目的是使判別網(wǎng)絡(luò)無(wú)法判斷生成網(wǎng)絡(luò)的輸出結(jié)果是否真實(shí)(直至達(dá)到納什均衡)。
如果我們將典型的神經(jīng)網(wǎng)絡(luò)(如圖像分類器)當(dāng)作神經(jīng)網(wǎng)絡(luò)“大腦”的左半球,那么生成對(duì)抗網(wǎng)絡(luò)就類似大腦的右半球 ——負(fù)責(zé)創(chuàng)造力的一個(gè)半球。
GAN是培養(yǎng)神經(jīng)網(wǎng)絡(luò)“創(chuàng)造力”的第一步。典型的GAN從隨機(jī)噪聲或者潛在變量中,根據(jù)特定的關(guān)鍵字生成圖像。目前,GAN生成的圖像質(zhì)量不好,分辨率也有限。但最近NVIDIA取得了新進(jìn)展:在高分辨率下生成逼真的圖像是可以實(shí)現(xiàn)的,他們開(kāi)放了這項(xiàng)技術(shù)的權(quán)限。
條件GAN和變分自編碼器
GAN種類繁多,復(fù)雜程度、架構(gòu)和簡(jiǎn)稱各有不同。人們最感興趣的是條件GAN和變分自編碼器。條件GAN不僅能夠模仿“臥室”,“臉”,“狗”等大分類的圖像,它生成的圖像分類還可以更細(xì)。例如,Text2Image網(wǎng)絡(luò)能將對(duì)圖像的文字描述,轉(zhuǎn)換成圖像。
GAN生成的“假房間”、“假狗 ”、“假名人 ”和“假藝術(shù)品 ”結(jié)果
通過(guò)設(shè)置“含義”向量的隨機(jī)種子,我們能夠產(chǎn)生無(wú)限個(gè)匹配描述的鳥(niǎo)類圖像。
輸入文字描述“這只小鳥(niǎo)有白色的胸部、淺灰色的頭、黑色的翅膀和尾巴”文字轉(zhuǎn)化為向量加入隨機(jī)種子完成訓(xùn)練的GAN給出結(jié)果
我們眼前的機(jī)遇
想像一下兩年后的世界。NVIDIA這樣的公司會(huì)將GAN技術(shù)發(fā)展到成熟的行業(yè)水準(zhǔn),就像現(xiàn)在我們能看到的名人頭像生成那樣。這也就意味著,GAN隨時(shí)可以按照要求生成任何圖像,你只需要給出文字描述就行了。那么很多攝影和設(shè)計(jì)相關(guān)的產(chǎn)業(yè)就會(huì)過(guò)時(shí)。請(qǐng)看下圖分解。
給出不同的隨機(jī)種子,這個(gè)神經(jīng)網(wǎng)絡(luò)能生成無(wú)限個(gè)圖像結(jié)果。
左邊為輸入的文字描述,右邊為GAN生成的結(jié)果。
輸入“我需要牛和海豚合體的照片。 ” 得到圖一。
輸入“我需要牛和海豚分開(kāi)的照片。” 得到圖二。
輸入“我需要牛和海豚分開(kāi),享受生活的照片。 ” 得到圖三。
超級(jí)個(gè)性化
讓人寒毛直豎的地方在于,這樣的一個(gè)網(wǎng)絡(luò)不僅輸入它需要生成的目標(biāo)的描述,還能接收到一個(gè)用來(lái)描述你,目標(biāo)消費(fèi)者,的向量。這個(gè)廣告能深度描繪出你的個(gè)性,你的網(wǎng)頁(yè)瀏覽歷史、最近的交易記錄和地理位置。所以GAN一次性生成的結(jié)果,是為你專門打造的。用戶點(diǎn)擊率一定會(huì)爆棚。
輸入“穿著我們品牌服裝的女孩兒 ”+金發(fā)、加州、夢(mèng)幻紅色法拉利、優(yōu)先白色,結(jié)果是左下角的圖。輸入“穿著我們品牌服裝的女孩兒 ”+紅棕色頭發(fā)、最近搜索過(guò)香奈兒、計(jì)劃去摩納哥旅行,結(jié)果是右下角的圖。
“測(cè)量”你的反應(yīng)之后,神經(jīng)網(wǎng)絡(luò)會(huì)進(jìn)行調(diào)整,讓廣告越來(lái)越準(zhǔn)確的符合你的品味,刺激讓你最興奮的點(diǎn)。
泡沫趨勢(shì)
所以,總有一天,網(wǎng)絡(luò)上會(huì)到處都是完全個(gè)性化定制的內(nèi)容。
所有人看到的內(nèi)容,都是結(jié)合自己生活方式、觀點(diǎn)看法和個(gè)人歷史,經(jīng)過(guò)個(gè)性化調(diào)整的。在美國(guó)總統(tǒng)大選中,我們已經(jīng)目睹了這種泡沫格局的激化,但未來(lái)的情況只會(huì)越來(lái)越糟。GAN可以將為個(gè)人生成各種內(nèi)容,且不受媒體的限制 -從簡(jiǎn)單的圖像廣告,到機(jī)器生成的復(fù)雜觀點(diǎn),帖子和出版作品,從而創(chuàng)建出一個(gè)持續(xù)的反饋循環(huán),根據(jù)人機(jī)交互不斷改進(jìn)。不同的GAN之間會(huì)出現(xiàn)競(jìng)爭(zhēng)——全面的自動(dòng)化戰(zhàn)爭(zhēng),而我們?nèi)祟惥褪菓?zhàn)場(chǎng)。 這一趨勢(shì)背后的驅(qū)動(dòng)力非常簡(jiǎn)單——利潤(rùn)。
這可不是什么嚇唬人的末日言論,戰(zhàn)爭(zhēng)的號(hào)角早已吹響,只是我們還沒(méi)看到硝煙。
是好是壞?
我不知道。 但是有些事情已經(jīng)刻不容緩:這種技術(shù)的到來(lái)已經(jīng)不可避免,必須展開(kāi)廣泛的公眾討論,以及做好喊停的準(zhǔn)備。 所以,我們最好現(xiàn)在就開(kāi)始思考 - 如何能夠在對(duì)抗這個(gè)過(guò)程的同時(shí),從中受益?
技術(shù)方面
出于某些技術(shù)上的限制,以上描述的未來(lái)還沒(méi)有成真。 目前,由GAN生成的圖像質(zhì)量還很差,很容易被發(fā)現(xiàn)是假的。 但NVIDIA已經(jīng)向世界展示,生成1024x1024的逼真面孔是可行的。 如果技術(shù)要進(jìn)一步發(fā)展,我們需要更快,更大型的GPU,更多關(guān)于GAN的理論研究,更多的訓(xùn)練GAN的巧妙方法,更多的標(biāo)記數(shù)據(jù)集...
注意: 我們不需要新的能源,量子處理器(但這可能有幫助)或者人工智能,來(lái)幫我們實(shí)現(xiàn)技術(shù)進(jìn)步。 我們所需要的資源在幾年內(nèi)就能完成,而一些大公司可能已經(jīng)擁有這些資源。
另外,我們需要更智能的神經(jīng)網(wǎng)絡(luò)。GAN的進(jìn)展會(huì)首先應(yīng)用于超分辨率技術(shù),給超分辨率技術(shù)的進(jìn)步帶來(lái)極大的好處。