生成式人工智能十年的經(jīng)驗(yàn)教訓(xùn)
最近,在 ChatGPT 和 Bard 等公司的引領(lǐng)下,生成式 AI 掀起了熱潮,企業(yè)越來越多地尋求了解該技術(shù)的用例。現(xiàn)在是圍繞人工智能的力量展開對(duì)話的好時(shí)機(jī),但生成式人工智能并不是什么新鮮事。十多年來,生成式建模(即生成式 AI)在幕后蓬勃發(fā)展,主要受到三個(gè)因素的推動(dòng):2015 年的 Tensorflow 和 2016 年的 PyTorch 等開源軟件庫(kù)的開發(fā);神經(jīng)網(wǎng)絡(luò)架構(gòu)和訓(xùn)練方面的創(chuàng)新;以及圖形處理單元 (GPU) 和張量處理單元 (TPU) 等硬件改進(jìn),以促進(jìn)大規(guī)模神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和推理。
在本文中,我將旨在解釋什么是生成模型、它們?nèi)绾伟l(fā)展到今天的水平以及應(yīng)該如何使用它們,同時(shí)也探討它們的局限性。
什么是生成模型,它們從何而來?
生成模型學(xué)習(xí)訓(xùn)練數(shù)據(jù)的分布,以便能夠采樣或生成在統(tǒng)計(jì)上與原始數(shù)據(jù)相似的合成數(shù)據(jù)。這需要一個(gè)兩步過程:首先,在大型靜態(tài)數(shù)據(jù)集上訓(xùn)練模型,其次,對(duì)模型進(jìn)行采樣以獲得新的數(shù)據(jù)點(diǎn)。這個(gè)兩步過程的好處是,一旦模型經(jīng)過訓(xùn)練,就可以廉價(jià)地大規(guī)模生成新數(shù)據(jù)。
雖然早期的生成模型相對(duì)簡(jiǎn)單,例如隱馬爾可夫模型、樸素貝葉斯或高斯混合模型,但 2010 年左右將 GPU 引入主流機(jī)器學(xué)習(xí)使得基于深度神經(jīng)網(wǎng)絡(luò)的更靈活的生成模型成為可能。Deepmind (2010)、Google Brain (2011) 和 Facebook AI Research (2013) 等設(shè)施齊全的新研究實(shí)驗(yàn)室也于此時(shí)開始開放,而 OpenAI 則在 2015 年底晚些時(shí)候出現(xiàn),進(jìn)一步推動(dòng)了人工智能技術(shù)的發(fā)展。深度學(xué)習(xí),從而生成建模。在此期間,許多新的架構(gòu)開始出現(xiàn),例如變分自動(dòng)編碼器(VAE,2013)和生成對(duì)抗網(wǎng)絡(luò)(GAN,2014),它們?cè)谏蓤D像方面產(chǎn)生了最先進(jìn)的結(jié)果。
為了促進(jìn)這些更復(fù)雜模型的開發(fā)和部署,Google 于 2015 年發(fā)布了開源庫(kù) Tensorflow,緊接著 Facebook 于 2016 年發(fā)布了 PyTorch。這些庫(kù)使廣泛的從業(yè)者和研究人員能夠使用深度學(xué)習(xí),帶動(dòng)新模式、新應(yīng)用的快速發(fā)展。
其中一個(gè)突破性模型是 Transformer——一種于 2017 年出現(xiàn)的深度學(xué)習(xí)模型,現(xiàn)在構(gòu)成了 GPT-4 等所有當(dāng)前最先進(jìn)語(yǔ)言模型的基礎(chǔ)。次年 2018 年出現(xiàn)的兩個(gè)特定的基于 Transformer 的模型是來自 Google 的 BERT(來自 Transformers 的雙向編碼器表示)和來自 OpenAI 的 GPT(生成預(yù)訓(xùn)練 Transformer)。兩者都被設(shè)計(jì)為通用語(yǔ)言模型來執(zhí)行各種任務(wù),從文本分類和情感分析到語(yǔ)言翻譯。受熱力學(xué)啟發(fā),2019 年出現(xiàn)的另一個(gè)突破性模型是用于生成圖像的擴(kuò)散模型。
迄今為止,擴(kuò)散模型和變壓器模型是文本到圖像和語(yǔ)言模型的主要方法,分別實(shí)現(xiàn)了最先進(jìn)的結(jié)果。例如,ChatGPT于 2022 年發(fā)布,今年(2023 年)發(fā)布的更先進(jìn)的 GPT-4 采用了 Transformer 架構(gòu),而 Stable Diffusion 和 Midjourney 等模型都是基于擴(kuò)散的模型。在過去的幾年里,生成式人工智能的趨勢(shì)是訓(xùn)練越來越大的模型和更多的參數(shù),以獲得越來越好的結(jié)果。這些工程壯舉,例如 GPT-4 和 Midjourney v5,依賴于改進(jìn)的硬件、開發(fā)良好的軟件庫(kù)和高效的深度神經(jīng)網(wǎng)絡(luò)架構(gòu)(即 Transformer)的組合,并且變得如此受歡迎,部分原因是它們很容易供公眾使用和訪問。
生成模型的應(yīng)用
隨著生成模型開始產(chǎn)生更引人注目的結(jié)果,并通過易于使用的 API 越來越多地向公眾開放,它們變得更適合各種應(yīng)用程序。對(duì)于圖像來說,大多數(shù)應(yīng)用程序都圍繞某種形式的內(nèi)容創(chuàng)建和設(shè)計(jì)。生成模型應(yīng)用的一個(gè)臭名昭著的例子是深度假貨的興起。雖然這在電影和廣告行業(yè)具有潛在的良好用途,但深度造假也可能被惡意地用于傳播錯(cuò)誤信息。對(duì)于 ChatGPT、Bard 和 GPT-4 等語(yǔ)言模型,應(yīng)用程序包括文本摘要、翻譯和補(bǔ)全,這對(duì)于營(yíng)銷內(nèi)容和內(nèi)部通信特別有用。
在技術(shù)方面,Codex 和 GitHub Copilot 等語(yǔ)言模型已成功用于生成可以加快開發(fā)速度并幫助程序員的代碼。當(dāng)然,有效地指導(dǎo)模型是即時(shí)工程的藝術(shù)。
需要考慮的挑戰(zhàn)和風(fēng)險(xiǎn)
當(dāng)前生成模型的根本風(fēng)險(xiǎn)在于它們是輸出不可控的黑盒模型。這個(gè)問題可以通過多種不同的方式表現(xiàn)出來,例如:
1. 沒有辦法明確阻止這些模型生成攻擊性或圖形文本和圖像。仍然需要有人參與其中來過濾掉不適當(dāng)?shù)牟牧稀?
2. 生成模型可能會(huì)返回大部分訓(xùn)練數(shù)據(jù),從而導(dǎo)致隱私和版權(quán)問題。這個(gè)問題在 Getty Images 最近針對(duì) Stability AI 提起的訴訟中得到了強(qiáng)調(diào)。
3. 從語(yǔ)言模型返回的信息可能不準(zhǔn)確或具有誤導(dǎo)性,因?yàn)樵撃P蜔o法對(duì)其自身的輸出進(jìn)行事實(shí)檢查。因此,不應(yīng)依賴這些模型來制作醫(yī)療、財(cái)務(wù)或法律事務(wù)等高風(fēng)險(xiǎn)情況下的內(nèi)容。此外,對(duì)于 GitHub Copilot 等代碼生成工具,在將代碼投入生產(chǎn)之前應(yīng)小心謹(jǐn)慎,因?yàn)榭赡軙?huì)遺漏邊緣情況或可能破壞生產(chǎn)管道的錯(cuò)誤。
這些只是使用生成模型的風(fēng)險(xiǎn)的幾個(gè)例子。為了緩解這些問題,應(yīng)與人類合作使用有效的生成模型來監(jiān)控其輸出并在需要時(shí)糾正結(jié)果。
生成式人工智能的未來
可以肯定地說,生成式人工智能的未來將繼續(xù)受到推動(dòng)其發(fā)展至今的相同力量的推動(dòng)。硬件和軟件的改進(jìn)將提高我們能夠訓(xùn)練的模型的能力。架構(gòu)和培訓(xùn)方面的新創(chuàng)新將不可避免地出現(xiàn),從而導(dǎo)致新的最先進(jìn)模型的性能飛躍。此外,新機(jī)遇也伴隨著新挑戰(zhàn)。版權(quán)和知識(shí)產(chǎn)權(quán)法需要進(jìn)行調(diào)整,隨著人工智能和數(shù)據(jù)法規(guī)的發(fā)展,對(duì)于使用哪些數(shù)據(jù)來訓(xùn)練這些模型可能會(huì)出現(xiàn)進(jìn)一步的隱私問題。Deepfake 技術(shù)也將繼續(xù)成熟,允許更先進(jìn)的方法來傳播錯(cuò)誤信息和虛假內(nèi)容。盡管存在這些挑戰(zhàn),生成人工智能的未來仍然光明,