OpenAI“大力出奇跡”的 GPT2 同樣適用圖像領(lǐng)域

時(shí)間：2020-07-14 16:48:02

關(guān)鍵字： openai

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]▲ 第一列為研究人員為模型提供的半張圖片，中間是模型自動(dòng)補(bǔ)全的完整圖像，最后一列是原始圖像我們都知道，對(duì)于機(jī)器學(xué)習(xí)來說，無監(jiān)督學(xué)習(xí)或沒有人為標(biāo)簽的數(shù)據(jù)學(xué)習(xí)長期以來都是一項(xiàng)不小的挑戰(zhàn)。最近，在語言上，機(jī)

▲ 第一列為研究人員為模型提供的半張圖片，中間是模型自動(dòng)補(bǔ)全的完整圖像，最后一列是原始圖像

我們都知道，對(duì)于機(jī)器學(xué)習(xí)來說，無監(jiān)督學(xué)習(xí)或沒有人為標(biāo)簽的數(shù)據(jù)學(xué)習(xí)長期以來都是一項(xiàng)不小的挑戰(zhàn)。最近，在語言上，機(jī)器學(xué)習(xí)已經(jīng)取得了一些值得稱贊的成就，如BERT、GPT-2、RoBERTa、T5等，但是，這類模型尚未成功產(chǎn)生用于圖像分類的功能。

不過，也正是由于BERT和GPT-2這類模型與領(lǐng)域無關(guān)，它們可以直接應(yīng)用于任何形式的一維序列。比如在圖像領(lǐng)域，當(dāng)在展開為長像素序列的圖像上訓(xùn)練GPT-2時(shí)，研究人員就發(fā)現(xiàn)，該模型似乎可以理解二維圖像特征，例如外觀和類別。即使在沒有人工提供標(biāo)簽的指導(dǎo)下，生成的相干圖像樣本的范圍也足以證明。同時(shí)，該模型的功能可以在許多分類數(shù)據(jù)集上實(shí)現(xiàn)最新性能，也就是說，具有最新的無監(jiān)督準(zhǔn)確性。

為了突出生成序列模型作為通用無監(jiān)督學(xué)習(xí)算法的潛力，OpenAI故意在語言上使用與GPT-2相同的transformer架構(gòu)。研究人員也就需要更多的計(jì)算產(chǎn)生與頂級(jí)無監(jiān)督卷積網(wǎng)絡(luò)相競爭的特性，結(jié)果表明，當(dāng)面對(duì)一個(gè)正確的模型先驗(yàn)未知的新領(lǐng)域時(shí)，GPT-2可以學(xué)習(xí)優(yōu)秀的特性，而不需要特定領(lǐng)域的架構(gòu)設(shè)計(jì)選擇。

在語言方面，依賴于單詞預(yù)測的無監(jiān)督學(xué)習(xí)算法(如GPT-2和BERT)非常成功，在大量的語言任務(wù)中表現(xiàn)最佳。這種成功的一個(gè)可能原因是下游語言任務(wù)的例子在文本中很自然地出現(xiàn)：問題后面經(jīng)常跟著答案，段落后面經(jīng)常跟著總結(jié)。相反，像素序列沒有明確包含其所屬圖像的標(biāo)簽。

即使沒有這種明確的監(jiān)督，圖像上的GPT-2仍然可以工作的原因是：一個(gè)足夠大的變壓器訓(xùn)練下一個(gè)像素預(yù)測可能最終學(xué)會(huì)生成不同的樣本與清晰可識(shí)別的對(duì)象。一旦它學(xué)會(huì)了這樣做，被稱為“綜合分析”的想法表明，模型也將知道對(duì)象類別。許多早期的生成模型都是受到這個(gè)想法的推動(dòng)，最近BigBiGAN就是一個(gè)產(chǎn)生令人鼓舞的樣本和特征的例子。在我們的工作中，我們首先展示了更好的生成模型實(shí)現(xiàn)更強(qiáng)的分類性能。然后，通過優(yōu)化GPT-2的生成能力，研究人員發(fā)現(xiàn)在很多場景下都達(dá)到了頂級(jí)的分類性能，為綜合分析提供了進(jìn)一步的證據(jù)。

這項(xiàng)研究表明，通過權(quán)衡二維知識(shí)交換規(guī)模，從網(wǎng)絡(luò)中間選擇預(yù)測特征，序列轉(zhuǎn)換器就可以與頂級(jí)卷積網(wǎng)絡(luò)競爭無監(jiān)督圖像分類。值得注意的是，GPT-2語言模型直接應(yīng)用于圖像生成就足以實(shí)現(xiàn)實(shí)驗(yàn)結(jié)果。

考慮到系統(tǒng)的簡單性和通用性，對(duì)于給定足夠的計(jì)算量的序列轉(zhuǎn)換器，最終可能是學(xué)習(xí)許多領(lǐng)域優(yōu)良特性的有效方法。