下一個(gè)AI寒冬的隱患如何去解決

時(shí)間：2020-05-21 14:48:01

關(guān)鍵字： AI 人工智能模型遷移學(xué)習(xí)

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] “我現(xiàn)在就在做一線的事情，防止（人工智能）冷下去?！碑?dāng)被問及眼下這一波人工智能熱潮是否會(huì)像歷史上的幾波一樣曇花一現(xiàn)，國(guó)際人工智能理事會(huì)（IJCAI）主席、香港科技大學(xué)計(jì)算機(jī)科學(xué)與工程系主任楊強(qiáng)這

“我現(xiàn)在就在做一線的事情，防止（人工智能）冷下去。”當(dāng)被問及眼下這一波人工智能熱潮是否會(huì)像歷史上的幾波一樣曇花一現(xiàn)，國(guó)際人工智能理事會(huì)（IJCAI）主席、香港科技大學(xué)計(jì)算機(jī)科學(xué)與工程系主任楊強(qiáng)這樣告訴澎湃新聞?dòng)浾摺?/p>

在他看來(lái)，如今的人工智能雖已突破了計(jì)算能力和數(shù)據(jù)資源的瓶頸，但隱患埋伏在一個(gè)“偏”字上。例如學(xué)術(shù)研究方面，國(guó)內(nèi)高校雖然開始設(shè)立人工智能學(xué)院和專業(yè)，五年內(nèi)有望培育出一批AI人才，但不少大學(xué)直接將機(jī)器學(xué)習(xí)等同于人工智能，邏輯學(xué)、神經(jīng)學(xué)等冷門領(lǐng)域研究和國(guó)外的差距很大。

類似地，人工智能產(chǎn)業(yè)發(fā)展迅速，卻過多地偏重計(jì)算機(jī)視覺在安防領(lǐng)域的布局，許多需求未得到充分挖掘。

近年來(lái)，楊強(qiáng)所做的就是超越深度學(xué)習(xí)專用于一個(gè)領(lǐng)域的框架，開拓出遷移學(xué)習(xí)、聯(lián)邦學(xué)習(xí)等在兩個(gè)或兩個(gè)以上的領(lǐng)域之間進(jìn)行的機(jī)器學(xué)習(xí)方法。

他希望能讓多方在不泄露各自數(shù)據(jù)隱私的情況下實(shí)現(xiàn)數(shù)據(jù)的共享和模型的共建，打破數(shù)據(jù)割裂的孤島。在這樣的合作框架下，各方享有平等的地位和一定的“主權(quán)”，但走向“共同富?！?，就像一個(gè)聯(lián)邦國(guó)家。

楊強(qiáng)正與微眾銀行等機(jī)構(gòu)合作，試圖用聯(lián)邦學(xué)習(xí)打通人工智能應(yīng)用的最后一公里，促進(jìn)人工智能在金融、城市管理等領(lǐng)域的落地。“人工智能算法的數(shù)據(jù)得不到更新，就像一臺(tái)好車沒有汽油?！?/p>

這位1961年出生的計(jì)算機(jī)科學(xué)家是首位當(dāng)選國(guó)際人工智能協(xié)會(huì)（AAAI）院士的華人。他似乎很擅長(zhǎng)跳出主流偏重的視角來(lái)看問題。例如，當(dāng)許多人在討論機(jī)器能否像人一樣實(shí)現(xiàn)無(wú)監(jiān)督的學(xué)習(xí)，楊強(qiáng)卻認(rèn)為無(wú)監(jiān)督學(xué)習(xí)是一種假象，人類的監(jiān)督學(xué)習(xí)隱藏得很深。如果算法做得足夠好，就能像人類一樣從簡(jiǎn)單的一張照片上提取到無(wú)數(shù)個(gè)標(biāo)簽。

此外，人類的大腦“軟件”得到無(wú)數(shù)稱頌，但“硬件”優(yōu)勢(shì)卻往往被忽略。楊強(qiáng)注意到，人渾身上下都是精妙的傳感器，幫助人腦獲取信息。在硬件發(fā)展沒有跟上的情況下，光用算法實(shí)現(xiàn)通用的強(qiáng)人工智能只能是奢望。

“只不過大家現(xiàn)在都在摘比較低垂的果子，還沒有深入去想。”楊強(qiáng)說道。

以下為澎湃新聞?dòng)浾吲c楊強(qiáng)的對(duì)話實(shí)錄。

聯(lián)邦學(xué)習(xí)：人工智能應(yīng)用的最后一公里

澎湃新聞：可以說從深度學(xué)習(xí)到遷徙學(xué)習(xí)、聯(lián)邦學(xué)習(xí)，存在一種遞進(jìn)的關(guān)系？

楊強(qiáng)：遷移學(xué)習(xí)和聯(lián)邦學(xué)習(xí)之間的共性都是在兩個(gè)或兩個(gè)以上的領(lǐng)域之間進(jìn)行，這和深度學(xué)習(xí)是截然不同的。深度學(xué)習(xí)和以前的各種學(xué)習(xí)都是在一個(gè)領(lǐng)域進(jìn)行。

在兩個(gè)領(lǐng)域進(jìn)行，第一層的考慮是知識(shí)的遷移共享，第二層考慮就是加密和安全。

比如說原來(lái)有一個(gè)保險(xiǎn)公司，它對(duì)車險(xiǎn)的定價(jià)基于一些很粗的維度，像駕駛員的年齡和車齡。為什么只能做這么粗的定價(jià)？因?yàn)樗鼘?duì)用戶的了解非常少。如果有一個(gè)碼農(nóng)張三年紀(jì)很輕，但開車卻很小心，這一點(diǎn)它就無(wú)法了解，也無(wú)法進(jìn)行個(gè)性化。

現(xiàn)在它可以和一個(gè)移動(dòng)互聯(lián)網(wǎng)公司合作。運(yùn)營(yíng)商那邊有張三的行為數(shù)據(jù)，但對(duì)保險(xiǎn)領(lǐng)域并不了解。它們兩邊需要合作，但又不愿意把數(shù)據(jù)暴露給對(duì)方，以防失控和監(jiān)管不嚴(yán)的問題。

聯(lián)邦學(xué)習(xí)恰恰就是在這可以幫忙，不交換數(shù)據(jù)，但可以在重疊的數(shù)據(jù)上建立一個(gè)更好的模型。

澎湃新聞：目前聯(lián)邦學(xué)習(xí)有哪些落地場(chǎng)景？

楊強(qiáng)：橫向聯(lián)邦學(xué)習(xí)的場(chǎng)景是各方都有一部分用戶數(shù)據(jù)，這些用戶都不一樣，他們可以利用加密的共享共建模型來(lái)得到一個(gè)更好的模型。但是這個(gè)模型不必用到所有用戶的數(shù)據(jù)，我們假設(shè)有1000萬(wàn)的手機(jī)用戶，你可以在里面選比較有用的300萬(wàn)，建立起橫向的模型，分散到上千萬(wàn)的用戶。

還有一個(gè)是縱向聯(lián)邦學(xué)習(xí)，意思是兩個(gè)機(jī)構(gòu)同樣進(jìn)入這個(gè)數(shù)據(jù)，但是維護(hù)不一樣。比如一個(gè)收集用戶的年齡性別，另一方收集用戶的學(xué)習(xí)成績(jī)和平時(shí)的衣食住行。

具體到金融領(lǐng)域的案例，橫向聯(lián)邦學(xué)習(xí)的場(chǎng)景是很多家不同銀行的維度是一樣的，都了解信用、還款情況等信息，但用戶是不一樣的，因?yàn)樗鼈兾挥诓煌某鞘小?/p>

而縱向聯(lián)邦學(xué)習(xí)是同一個(gè)城市，同樣一個(gè)用戶，但是他在接受不同的金融服務(wù)。比如面對(duì)小微企業(yè)的貸款，我們需要了解這些企業(yè)的稅收情況和經(jīng)營(yíng)情況，但銀行沒有這部分?jǐn)?shù)據(jù)。我們就可以找一些專門處理發(fā)票的機(jī)構(gòu)來(lái)合作。

除此之外，我們也在探索一些非常不一樣的業(yè)務(wù)。舉個(gè)例子，我們跟一個(gè)深圳的公司合作，他們是做工地安全的視頻檢測(cè)，有沒有著火、工人有沒有戴帽子等等。但不同的工地、不同的公司不愿意交換這種數(shù)據(jù)，就可以用聯(lián)邦學(xué)習(xí)來(lái)建立一個(gè)聯(lián)邦模型，這樣一個(gè)工具要比單獨(dú)的數(shù)據(jù)更靠譜。

澎湃新聞：從實(shí)驗(yàn)室走向產(chǎn)業(yè)落地的困難主要有哪些？

楊強(qiáng)：聯(lián)邦學(xué)習(xí)是一個(gè)多方參與，所以首先要在機(jī)制設(shè)計(jì)上保證每個(gè)聯(lián)盟都覺得受益，才有參與的興趣。其次是大家各自數(shù)據(jù)的維度不同，大小不同，質(zhì)量也不一樣，做算法設(shè)計(jì)的時(shí)候就要考慮到異構(gòu)框架，比同構(gòu)框架更難。最后是要達(dá)成一個(gè)共識(shí)，就是什么才算成功？

這就像是從一個(gè)人打乒乓到五人團(tuán)隊(duì)打籃球，我們希望能形成一個(gè)滾雪球的效果，可以說聯(lián)邦學(xué)習(xí)在算法上已經(jīng)鋪墊好了，關(guān)鍵要看多方的投入。

澎湃新聞：在AI賦能產(chǎn)業(yè)的過程中，聯(lián)邦學(xué)習(xí)會(huì)扮演一個(gè)怎樣的角色？

楊強(qiáng)：我管這個(gè)叫人工智能應(yīng)用的最后一公里。最后一公里的意思是說，除非你能到用戶的那一段，不然你搭得再好最后還是沒有銜接上。那么什么東西沒有銜接上？就是數(shù)據(jù)。

人工智能算法都需要很多數(shù)據(jù)，數(shù)據(jù)得不到更新，最后就像一臺(tái)好車沒有汽油。

所以在我看來(lái)，這最后一公里確實(shí)特別關(guān)鍵。只有通過這種合作的方式，才能把大數(shù)據(jù)真正建立起來(lái)。

無(wú)監(jiān)督學(xué)習(xí)是“假象”

澎湃新聞：人工智能是否有一天能做到舉一反三、融會(huì)貫通？

楊強(qiáng)：路還很長(zhǎng)，但我們現(xiàn)在做的一些實(shí)驗(yàn)證明是可以的。像遷移學(xué)習(xí)之前都是一些博士生、研究人員來(lái)設(shè)計(jì)，現(xiàn)在有個(gè)算法叫自動(dòng)機(jī)器學(xué)習(xí)，和遷移學(xué)習(xí)結(jié)合就變成自動(dòng)遷移學(xué)習(xí)。

自動(dòng)遷移學(xué)習(xí)是怎樣的？比如在自然語(yǔ)言領(lǐng)域看到一個(gè)新的需求，它會(huì)把自己建好的模型和新的應(yīng)用之間的差別變成一個(gè)目標(biāo)函數(shù)，從而設(shè)計(jì)算法。整個(gè)過程是可以自動(dòng)化的。如果這個(gè)可以做，讓機(jī)器最終學(xué)會(huì)舉一反三是可能的，但路還很長(zhǎng)。

澎湃新聞：針對(duì)現(xiàn)在大家比較關(guān)注的一些深度學(xué)習(xí)的瓶頸，你有什么看法？

楊強(qiáng)：其實(shí)現(xiàn)在大家比較關(guān)注的一個(gè)問題是可解釋性，因?yàn)樯疃葘W(xué)習(xí)是個(gè)黑箱。我覺得這個(gè)問題遲早會(huì)解決。為什么呢？你看人腦其實(shí)在某種程度上也在做深度學(xué)習(xí)，每個(gè)人的大腦都有好多神經(jīng)元在做肉體的深度學(xué)習(xí)，同時(shí)我們可以對(duì)自己的某些決策作解釋。醫(yī)生可以給病人解釋為什么開這個(gè)藥，老師也可以給學(xué)生解釋說錯(cuò)在哪里。人有這個(gè)功能，我相信機(jī)器一定可以發(fā)展出類似的功能，只不過我們現(xiàn)在沒有找到路子。

除此之外，深度學(xué)習(xí)的穩(wěn)定性問題也是國(guó)際上的研究熱點(diǎn)，現(xiàn)在有很多人工智能可以通過假數(shù)據(jù)來(lái)欺騙，這說明現(xiàn)在人工智能的魯棒性還不是很好。

這是很自然的，一個(gè)技術(shù)出現(xiàn)后，大家就會(huì)開始關(guān)注魯棒性、可擴(kuò)展性、透明性等非功能性性質(zhì)，引起第二波研究。以前的數(shù)據(jù)庫(kù)和互聯(lián)網(wǎng)技術(shù)也是這樣。

澎湃新聞：有沒有可能實(shí)現(xiàn)無(wú)監(jiān)督的深度學(xué)習(xí)？

楊強(qiáng)：我覺得無(wú)監(jiān)督是一個(gè)假象。大家都在類比人會(huì)做無(wú)監(jiān)督學(xué)習(xí)，但我的觀點(diǎn)是人做的是有監(jiān)督學(xué)習(xí)，只不過監(jiān)督藏得很深。

比方說給人看一朵花，以后看到花都能認(rèn)出來(lái)。這是因?yàn)檫@個(gè)例子里面其實(shí)包含了很多的信息，現(xiàn)在的算法只能從上面得到一個(gè)表面信息，但是還有一些深層的信息。

所以這是算法的不足。算法做好了以后，會(huì)看到所有的無(wú)監(jiān)督數(shù)據(jù)其實(shí)是有標(biāo)簽的。包括小孩為什么學(xué)得很快？這是因?yàn)樗改钢白隽祟A(yù)訓(xùn)練，這和遷移學(xué)習(xí)的方式非常像。

我覺得以后一定可以從一幅圖像中找到很多深層信息，然后也能訓(xùn)練個(gè)八九不離十。只不過大家現(xiàn)在都在摘比較低垂的果子，還沒有深入去想。

澎湃新聞：你對(duì)強(qiáng)人工智能有怎樣的展望？

楊強(qiáng)：強(qiáng)人工智能就是通用的，一個(gè)模型可以做N件事。人肯定是一個(gè)模型做N件事，但機(jī)器現(xiàn)在是一個(gè)模型只做一件事。我覺得強(qiáng)人工智能未來(lái)是可以實(shí)現(xiàn)，但可能不是用我們現(xiàn)在這種方式。

為什么呢？現(xiàn)在的方式是我們準(zhǔn)備很多數(shù)據(jù)，然后去訓(xùn)練出一個(gè)模型，這是人的運(yùn)作方法。人渾身上下都是傳感器，這些傳感器比現(xiàn)在的物聯(lián)網(wǎng)要強(qiáng)很多。所以除非硬件到了這個(gè)程度，否則只談人工智能算法就是奢望?，F(xiàn)在的情況是硬件遠(yuǎn)遠(yuǎn)落后，要等那邊跟上來(lái)。

要去研究一些冷門領(lǐng)域

澎湃新聞：從學(xué)術(shù)到產(chǎn)業(yè)，你對(duì)現(xiàn)在國(guó)內(nèi)的人工智能生態(tài)有哪些宏觀的觀察？

楊強(qiáng)：首先，我覺得國(guó)內(nèi)在人才培養(yǎng)上出現(xiàn)了非常可喜的局面，好多大學(xué)在建人工智能學(xué)院、人工智能專業(yè)。五年之后會(huì)涌現(xiàn)一大批人工智能從業(yè)者，可能會(huì)出現(xiàn)良莠不齊的情況，但沒關(guān)系，里面肯定會(huì)出現(xiàn)一些精英。其次，國(guó)內(nèi)人工智能產(chǎn)業(yè)發(fā)展也比較興旺，許多公司設(shè)立了人工智能部門，這些都是特別好的事。

但在比較冷門的研究領(lǐng)域，國(guó)內(nèi)和國(guó)外還有很大的差距。比如果很多國(guó)外的大學(xué)都有邏輯推理這方面的教授，但國(guó)內(nèi)一般就把機(jī)器學(xué)習(xí)等同于人工智能。另外，國(guó)內(nèi)研究神經(jīng)學(xué)和人工智能結(jié)合的也比國(guó)外少。在這些方面，我希望還是不要那么功利，要去研究一些眼下沒有大的進(jìn)展、比較冷門、好奇心驅(qū)使的方向。

澎湃新聞：總體來(lái)說，眼下這一波人工智能熱潮會(huì)冷下去嗎？如果冷下去可能是因?yàn)槟男┰颍?/p>

楊強(qiáng)：我現(xiàn)在就在做一線的事情，防止它們冷下去。過去冷下去有好幾個(gè)主要原因，一個(gè)是計(jì)算能力跟不上，一個(gè)是數(shù)據(jù)資源不夠。現(xiàn)在計(jì)算資源和數(shù)據(jù)資源都有了，但案例制造還不夠。

比如說，現(xiàn)在計(jì)算機(jī)視覺主要還是用在政府安防等領(lǐng)域。其實(shí)產(chǎn)業(yè)里有大量的需求，但大家做得太偏了，沒有充分地挖掘。一個(gè)產(chǎn)業(yè)如果只有一個(gè)支柱，那么它是很危險(xiǎn)的。人工智能如果只有視覺、或者政府安防這個(gè)支柱也很危險(xiǎn)。

所以你說有沒有危險(xiǎn)進(jìn)入到另一個(gè)寒冬？是有的。下一個(gè)寒冬可能是大家一蜂窩做的那件事沒有真的做出來(lái)，這一批人可能就會(huì)很失望。但現(xiàn)在努力做不同的事情的，也許會(huì)有新的驚喜。

來(lái)源：澎湃新聞