下一個AI寒冬的隱患如何去解決
“我現(xiàn)在就在做一線的事情,防止(人工智能)冷下去?!碑?dāng)被問及眼下這一波人工智能熱潮是否會像歷史上的幾波一樣曇花一現(xiàn),國際人工智能理事會(IJCAI)主席、香港科技大學(xué)計算機科學(xué)與工程系主任楊強這樣告訴澎湃新聞記者。
在他看來,如今的人工智能雖已突破了計算能力和數(shù)據(jù)資源的瓶頸,但隱患埋伏在一個“偏”字上。例如學(xué)術(shù)研究方面,國內(nèi)高校雖然開始設(shè)立人工智能學(xué)院和專業(yè),五年內(nèi)有望培育出一批AI人才,但不少大學(xué)直接將機器學(xué)習(xí)等同于人工智能,邏輯學(xué)、神經(jīng)學(xué)等冷門領(lǐng)域研究和國外的差距很大。
類似地,人工智能產(chǎn)業(yè)發(fā)展迅速,卻過多地偏重計算機視覺在安防領(lǐng)域的布局,許多需求未得到充分挖掘。
近年來,楊強所做的就是超越深度學(xué)習(xí)專用于一個領(lǐng)域的框架,開拓出遷移學(xué)習(xí)、聯(lián)邦學(xué)習(xí)等在兩個或兩個以上的領(lǐng)域之間進(jìn)行的機器學(xué)習(xí)方法。
他希望能讓多方在不泄露各自數(shù)據(jù)隱私的情況下實現(xiàn)數(shù)據(jù)的共享和模型的共建,打破數(shù)據(jù)割裂的孤島。在這樣的合作框架下,各方享有平等的地位和一定的“主權(quán)”,但走向“共同富?!?,就像一個聯(lián)邦國家。
楊強正與微眾銀行等機構(gòu)合作,試圖用聯(lián)邦學(xué)習(xí)打通人工智能應(yīng)用的最后一公里,促進(jìn)人工智能在金融、城市管理等領(lǐng)域的落地?!叭斯ぶ悄芩惴ǖ臄?shù)據(jù)得不到更新,就像一臺好車沒有汽油?!?/p>
這位1961年出生的計算機科學(xué)家是首位當(dāng)選國際人工智能協(xié)會(AAAI)院士的華人。他似乎很擅長跳出主流偏重的視角來看問題。例如,當(dāng)許多人在討論機器能否像人一樣實現(xiàn)無監(jiān)督的學(xué)習(xí),楊強卻認(rèn)為無監(jiān)督學(xué)習(xí)是一種假象,人類的監(jiān)督學(xué)習(xí)隱藏得很深。如果算法做得足夠好,就能像人類一樣從簡單的一張照片上提取到無數(shù)個標(biāo)簽。
此外,人類的大腦“軟件”得到無數(shù)稱頌,但“硬件”優(yōu)勢卻往往被忽略。楊強注意到,人渾身上下都是精妙的傳感器,幫助人腦獲取信息。在硬件發(fā)展沒有跟上的情況下,光用算法實現(xiàn)通用的強人工智能只能是奢望。
“只不過大家現(xiàn)在都在摘比較低垂的果子,還沒有深入去想?!睏顝娬f道。
以下為澎湃新聞記者與楊強的對話實錄。
聯(lián)邦學(xué)習(xí):人工智能應(yīng)用的最后一公里
澎湃新聞:可以說從深度學(xué)習(xí)到遷徙學(xué)習(xí)、聯(lián)邦學(xué)習(xí),存在一種遞進(jìn)的關(guān)系?
楊強:遷移學(xué)習(xí)和聯(lián)邦學(xué)習(xí)之間的共性都是在兩個或兩個以上的領(lǐng)域之間進(jìn)行,這和深度學(xué)習(xí)是截然不同的。深度學(xué)習(xí)和以前的各種學(xué)習(xí)都是在一個領(lǐng)域進(jìn)行。
在兩個領(lǐng)域進(jìn)行,第一層的考慮是知識的遷移共享,第二層考慮就是加密和安全。
比如說原來有一個保險公司,它對車險的定價基于一些很粗的維度,像駕駛員的年齡和車齡。為什么只能做這么粗的定價?因為它對用戶的了解非常少。如果有一個碼農(nóng)張三年紀(jì)很輕,但開車卻很小心,這一點它就無法了解,也無法進(jìn)行個性化。
現(xiàn)在它可以和一個移動互聯(lián)網(wǎng)公司合作。運營商那邊有張三的行為數(shù)據(jù),但對保險領(lǐng)域并不了解。它們兩邊需要合作,但又不愿意把數(shù)據(jù)暴露給對方,以防失控和監(jiān)管不嚴(yán)的問題。
聯(lián)邦學(xué)習(xí)恰恰就是在這可以幫忙,不交換數(shù)據(jù),但可以在重疊的數(shù)據(jù)上建立一個更好的模型。
澎湃新聞:目前聯(lián)邦學(xué)習(xí)有哪些落地場景?
楊強:橫向聯(lián)邦學(xué)習(xí)的場景是各方都有一部分用戶數(shù)據(jù),這些用戶都不一樣,他們可以利用加密的共享共建模型來得到一個更好的模型。但是這個模型不必用到所有用戶的數(shù)據(jù),我們假設(shè)有1000萬的手機用戶,你可以在里面選比較有用的300萬,建立起橫向的模型,分散到上千萬的用戶。
還有一個是縱向聯(lián)邦學(xué)習(xí),意思是兩個機構(gòu)同樣進(jìn)入這個數(shù)據(jù),但是維護(hù)不一樣。比如一個收集用戶的年齡性別,另一方收集用戶的學(xué)習(xí)成績和平時的衣食住行。
具體到金融領(lǐng)域的案例,橫向聯(lián)邦學(xué)習(xí)的場景是很多家不同銀行的維度是一樣的,都了解信用、還款情況等信息,但用戶是不一樣的,因為它們位于不同的城市。
而縱向聯(lián)邦學(xué)習(xí)是同一個城市,同樣一個用戶,但是他在接受不同的金融服務(wù)。比如面對小微企業(yè)的貸款,我們需要了解這些企業(yè)的稅收情況和經(jīng)營情況,但銀行沒有這部分?jǐn)?shù)據(jù)。我們就可以找一些專門處理發(fā)票的機構(gòu)來合作。
除此之外,我們也在探索一些非常不一樣的業(yè)務(wù)。舉個例子,我們跟一個深圳的公司合作,他們是做工地安全的視頻檢測,有沒有著火、工人有沒有戴帽子等等。但不同的工地、不同的公司不愿意交換這種數(shù)據(jù),就可以用聯(lián)邦學(xué)習(xí)來建立一個聯(lián)邦模型,這樣一個工具要比單獨的數(shù)據(jù)更靠譜。
澎湃新聞:從實驗室走向產(chǎn)業(yè)落地的困難主要有哪些?
楊強:聯(lián)邦學(xué)習(xí)是一個多方參與,所以首先要在機制設(shè)計上保證每個聯(lián)盟都覺得受益,才有參與的興趣。其次是大家各自數(shù)據(jù)的維度不同,大小不同,質(zhì)量也不一樣,做算法設(shè)計的時候就要考慮到異構(gòu)框架,比同構(gòu)框架更難。最后是要達(dá)成一個共識,就是什么才算成功?
這就像是從一個人打乒乓到五人團(tuán)隊打籃球,我們希望能形成一個滾雪球的效果,可以說聯(lián)邦學(xué)習(xí)在算法上已經(jīng)鋪墊好了,關(guān)鍵要看多方的投入。
澎湃新聞:在AI賦能產(chǎn)業(yè)的過程中,聯(lián)邦學(xué)習(xí)會扮演一個怎樣的角色?
楊強:我管這個叫人工智能應(yīng)用的最后一公里。最后一公里的意思是說,除非你能到用戶的那一段,不然你搭得再好最后還是沒有銜接上。那么什么東西沒有銜接上?就是數(shù)據(jù)。
人工智能算法都需要很多數(shù)據(jù),數(shù)據(jù)得不到更新,最后就像一臺好車沒有汽油。
所以在我看來,這最后一公里確實特別關(guān)鍵。只有通過這種合作的方式,才能把大數(shù)據(jù)真正建立起來。
無監(jiān)督學(xué)習(xí)是“假象”
澎湃新聞:人工智能是否有一天能做到舉一反三、融會貫通?
楊強:路還很長,但我們現(xiàn)在做的一些實驗證明是可以的。像遷移學(xué)習(xí)之前都是一些博士生、研究人員來設(shè)計,現(xiàn)在有個算法叫自動機器學(xué)習(xí),和遷移學(xué)習(xí)結(jié)合就變成自動遷移學(xué)習(xí)。
自動遷移學(xué)習(xí)是怎樣的?比如在自然語言領(lǐng)域看到一個新的需求,它會把自己建好的模型和新的應(yīng)用之間的差別變成一個目標(biāo)函數(shù),從而設(shè)計算法。整個過程是可以自動化的。如果這個可以做,讓機器最終學(xué)會舉一反三是可能的,但路還很長。
澎湃新聞:針對現(xiàn)在大家比較關(guān)注的一些深度學(xué)習(xí)的瓶頸,你有什么看法?
楊強:其實現(xiàn)在大家比較關(guān)注的一個問題是可解釋性,因為深度學(xué)習(xí)是個黑箱。我覺得這個問題遲早會解決。為什么呢?你看人腦其實在某種程度上也在做深度學(xué)習(xí),每個人的大腦都有好多神經(jīng)元在做肉體的深度學(xué)習(xí),同時我們可以對自己的某些決策作解釋。醫(yī)生可以給病人解釋為什么開這個藥,老師也可以給學(xué)生解釋說錯在哪里。人有這個功能,我相信機器一定可以發(fā)展出類似的功能,只不過我們現(xiàn)在沒有找到路子。
除此之外,深度學(xué)習(xí)的穩(wěn)定性問題也是國際上的研究熱點,現(xiàn)在有很多人工智能可以通過假數(shù)據(jù)來欺騙,這說明現(xiàn)在人工智能的魯棒性還不是很好。
這是很自然的,一個技術(shù)出現(xiàn)后,大家就會開始關(guān)注魯棒性、可擴展性、透明性等非功能性性質(zhì),引起第二波研究。以前的數(shù)據(jù)庫和互聯(lián)網(wǎng)技術(shù)也是這樣。
澎湃新聞:有沒有可能實現(xiàn)無監(jiān)督的深度學(xué)習(xí)?
楊強:我覺得無監(jiān)督是一個假象。大家都在類比人會做無監(jiān)督學(xué)習(xí),但我的觀點是人做的是有監(jiān)督學(xué)習(xí),只不過監(jiān)督藏得很深。
比方說給人看一朵花,以后看到花都能認(rèn)出來。這是因為這個例子里面其實包含了很多的信息,現(xiàn)在的算法只能從上面得到一個表面信息,但是還有一些深層的信息。
所以這是算法的不足。算法做好了以后,會看到所有的無監(jiān)督數(shù)據(jù)其實是有標(biāo)簽的。包括小孩為什么學(xué)得很快?這是因為他父母之前做了預(yù)訓(xùn)練,這和遷移學(xué)習(xí)的方式非常像。
我覺得以后一定可以從一幅圖像中找到很多深層信息,然后也能訓(xùn)練個八九不離十。只不過大家現(xiàn)在都在摘比較低垂的果子,還沒有深入去想。
澎湃新聞:你對強人工智能有怎樣的展望?
楊強:強人工智能就是通用的,一個模型可以做N件事。人肯定是一個模型做N件事,但機器現(xiàn)在是一個模型只做一件事。我覺得強人工智能未來是可以實現(xiàn),但可能不是用我們現(xiàn)在這種方式。
為什么呢?現(xiàn)在的方式是我們準(zhǔn)備很多數(shù)據(jù),然后去訓(xùn)練出一個模型,這是人的運作方法。人渾身上下都是傳感器,這些傳感器比現(xiàn)在的物聯(lián)網(wǎng)要強很多。所以除非硬件到了這個程度,否則只談人工智能算法就是奢望?,F(xiàn)在的情況是硬件遠(yuǎn)遠(yuǎn)落后,要等那邊跟上來。
要去研究一些冷門領(lǐng)域
澎湃新聞:從學(xué)術(shù)到產(chǎn)業(yè),你對現(xiàn)在國內(nèi)的人工智能生態(tài)有哪些宏觀的觀察?
楊強:首先,我覺得國內(nèi)在人才培養(yǎng)上出現(xiàn)了非??上驳木置?,好多大學(xué)在建人工智能學(xué)院、人工智能專業(yè)。五年之后會涌現(xiàn)一大批人工智能從業(yè)者,可能會出現(xiàn)良莠不齊的情況,但沒關(guān)系,里面肯定會出現(xiàn)一些精英。其次,國內(nèi)人工智能產(chǎn)業(yè)發(fā)展也比較興旺,許多公司設(shè)立了人工智能部門,這些都是特別好的事。
但在比較冷門的研究領(lǐng)域,國內(nèi)和國外還有很大的差距。比如果很多國外的大學(xué)都有邏輯推理這方面的教授,但國內(nèi)一般就把機器學(xué)習(xí)等同于人工智能。另外,國內(nèi)研究神經(jīng)學(xué)和人工智能結(jié)合的也比國外少。在這些方面,我希望還是不要那么功利,要去研究一些眼下沒有大的進(jìn)展、比較冷門、好奇心驅(qū)使的方向。
澎湃新聞:總體來說,眼下這一波人工智能熱潮會冷下去嗎?如果冷下去可能是因為哪些原因?
楊強:我現(xiàn)在就在做一線的事情,防止它們冷下去。過去冷下去有好幾個主要原因,一個是計算能力跟不上,一個是數(shù)據(jù)資源不夠?,F(xiàn)在計算資源和數(shù)據(jù)資源都有了,但案例制造還不夠。
比如說,現(xiàn)在計算機視覺主要還是用在政府安防等領(lǐng)域。其實產(chǎn)業(yè)里有大量的需求,但大家做得太偏了,沒有充分地挖掘。一個產(chǎn)業(yè)如果只有一個支柱,那么它是很危險的。人工智能如果只有視覺、或者政府安防這個支柱也很危險。
所以你說有沒有危險進(jìn)入到另一個寒冬?是有的。下一個寒冬可能是大家一蜂窩做的那件事沒有真的做出來,這一批人可能就會很失望。但現(xiàn)在努力做不同的事情的,也許會有新的驚喜。
來源:澎湃新聞