AI今年最大進(jìn)展是什么?2019年AutoML、GAN將扛大旗
掃描二維碼
隨時(shí)隨地手機(jī)看文章
本文來(lái)自新智元微信號(hào),本文作為轉(zhuǎn)載分享。
KDnuggets邀請(qǐng)11位來(lái)自工業(yè)、學(xué)術(shù)和技術(shù)一線的人員,回顧2018年AI的進(jìn)展,并展望2019年的關(guān)鍵技術(shù)趨勢(shì)。其中,有觀點(diǎn)認(rèn)為,2018年AI最大的進(jìn)展是沒(méi)有進(jìn)展,2019年AutoML、GAN等將繼續(xù)成為關(guān)鍵技術(shù)。
11天,11人,11個(gè)展望。
還有11天就要告別2018年,著名數(shù)據(jù)科學(xué)網(wǎng)站KDnuggets邀請(qǐng)國(guó)外11位機(jī)器學(xué)習(xí)和AI專家,回顧2018年機(jī)器學(xué)習(xí)和人工智能的主要進(jìn)展,并對(duì)2019年即將出現(xiàn)的關(guān)鍵趨勢(shì)進(jìn)行展望。
這11個(gè)人中,雖然沒(méi)有吳恩達(dá)、李飛飛這樣的頂級(jí)大咖,但都是身在工業(yè)、學(xué)術(shù)和技術(shù)一線的人員,他們包括英偉達(dá)機(jī)器學(xué)習(xí)研究主任、Gartner機(jī)器學(xué)習(xí)團(tuán)隊(duì)負(fù)責(zé)人、華盛頓大學(xué)計(jì)算機(jī)科學(xué)與工程系教授等,能夠從不同視角觀察AI的過(guò)往和未來(lái)。
以下是這11人的觀點(diǎn):
深度學(xué)習(xí)“低處的水果都被摘了”
英偉達(dá)機(jī)器學(xué)習(xí)研究負(fù)責(zé)人Anima Anandkumar:
英偉達(dá)機(jī)器學(xué)習(xí)研究負(fù)責(zé)人Anima Anandkuma
回顧2018年:焦點(diǎn)開(kāi)始從標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)轉(zhuǎn)向更具挑戰(zhàn)性的機(jī)器學(xué)習(xí)問(wèn)題,像半監(jiān)督學(xué)習(xí)、領(lǐng)域自適應(yīng)、主動(dòng)學(xué)習(xí)和生成模型。GAN仍然是非常受歡迎的,研究人員嘗試更困難的任務(wù),如bigGANs和video-to-video合成。開(kāi)發(fā)了替代的生成模型(如神經(jīng)渲染模型),以在單個(gè)網(wǎng)絡(luò)中組合生成和預(yù)測(cè)以幫助半監(jiān)督學(xué)習(xí)。
研究人員將深度學(xué)習(xí)的應(yīng)用擴(kuò)展到許多科學(xué)領(lǐng)域,如地震預(yù)測(cè)、材料科學(xué)、蛋白質(zhì)工程、高能物理和控制系統(tǒng)。在這些情況下,領(lǐng)域知識(shí)和約束與學(xué)習(xí)相結(jié)合。
預(yù)測(cè)2019年:“人工智能將模擬和現(xiàn)實(shí)聯(lián)系起來(lái),變得更安全,更具物理意識(shí)”
我們將看到開(kāi)發(fā)新的領(lǐng)域自適應(yīng)技術(shù),以便將知識(shí)從模擬無(wú)縫轉(zhuǎn)移到現(xiàn)實(shí)世界。使用模擬將有助于我們克服數(shù)據(jù)稀缺性并加快新領(lǐng)域和問(wèn)題的學(xué)習(xí)。使AI從模擬到實(shí)際數(shù)據(jù)(Sim2real)將對(duì)機(jī)器人技術(shù)、自動(dòng)駕駛、醫(yī)學(xué)成像、地震預(yù)報(bào)等產(chǎn)生重大影響。模擬是解決自動(dòng)駕駛等安全關(guān)鍵應(yīng)用中所有可能情況的好方法。內(nèi)置于復(fù)雜模擬器中的知識(shí)將以新穎的方式被使用,以使AI更具物理意識(shí),更強(qiáng)大,并能夠推廣到新的和看不見(jiàn)的場(chǎng)景。
2019移動(dòng)設(shè)備上的實(shí)時(shí)語(yǔ)音生成與真人無(wú)異
Gartner機(jī)器學(xué)習(xí)團(tuán)隊(duì)負(fù)責(zé)人Andriy Burkov:
Andriy Burkov
這是我自己作為一名實(shí)踐者的看法,不代表Gartner基于研究的官方聲明。以下是我的想法:
回顧2018年:TensorFlow在學(xué)術(shù)界輸給了PyTorch。有時(shí)谷歌的巨大影響力可能會(huì)使市場(chǎng)處于次優(yōu)的方向,因?yàn)镸apReduce和隨后的hadoop狂熱已經(jīng)發(fā)生了這種情況。
Deepfakes(以及類似的聲音技術(shù))粉碎了最值得信賴的信息來(lái)源:視頻。沒(méi)有人能敢再說(shuō)出這樣的話:我看到過(guò)那個(gè)人說(shuō)這些話的視頻。幾十年前我們不再相信印刷文字,但直到現(xiàn)在,視頻還是不可動(dòng)搖。
強(qiáng)化學(xué)習(xí)以深度學(xué)習(xí)的形式回歸是非常意外和酷!
Google代替人類致電餐廳并假裝(成功)成為真正的人類系統(tǒng)是一個(gè)里程碑。然而,它引發(fā)了許多關(guān)于道德和人工智能的問(wèn)題。
個(gè)人助理和聊天機(jī)器人很快就達(dá)到了極限。它們比以往任何時(shí)候都好,但不如去年所希望的那么好。
展望2019年:
1)我希望每個(gè)人都對(duì)今年的AutoML承諾感到興奮。我也期望它失?。ǔ艘恍┓浅>唧w和明確定義的案例,如不依靠手工的圖像識(shí)別、機(jī)器翻譯和文本分類,原始數(shù)據(jù)接近于機(jī)器期望作為輸入,并且數(shù)據(jù)是豐富的)。
2)營(yíng)銷自動(dòng)化:利用成熟的生成對(duì)抗網(wǎng)絡(luò)和變分自動(dòng)編碼器,可以生成數(shù)千張相同人物或圖像的圖片,這些圖像之間的面部表情或情緒差異很小。根據(jù)消費(fèi)者對(duì)這些圖片的反應(yīng),我們可以制作出最佳的廣告活動(dòng)。
3)移動(dòng)設(shè)備上的實(shí)時(shí)語(yǔ)音生成與真實(shí)人類無(wú)法區(qū)分。
4)自動(dòng)駕駛的出租車將保持在測(cè)試/ PoC階段。
2018年成為對(duì)AI過(guò)度恐懼的一年
華盛頓大學(xué)計(jì)算機(jī)科學(xué)與工程系教授Pedro Domingos:
Pedro Domingos
經(jīng)歷了多年炒作,2018年成為對(duì)AI過(guò)度恐懼的一年。
按一些媒體、甚至是一些研究人員的觀點(diǎn),你會(huì)認(rèn)為特朗普在2016年大選獲勝全拜劍橋分析公司所賜、機(jī)器學(xué)習(xí)算法是充斥偏見(jiàn)和歧視的垃圾、機(jī)器人正在取代我們的工作,不久就將霸占我們的生活等等。這些論調(diào)不僅僅是說(shuō)說(shuō)而已:歐洲和加州已經(jīng)通過(guò)了更加嚴(yán)厲的隱私法,聯(lián)合國(guó)正在就AI武器禁令等內(nèi)容進(jìn)行激烈辯論。公眾對(duì)AI的觀點(diǎn)越來(lái)越暗淡,這種現(xiàn)象即危險(xiǎn)又不公平。
希望2019年,人們能夠回歸理性。
數(shù)據(jù)科學(xué)家的角色將傾向于從研究轉(zhuǎn)向產(chǎn)品開(kāi)發(fā)
牛津大學(xué)物聯(lián)網(wǎng)課程的首席數(shù)據(jù)科學(xué)家和創(chuàng)始人Ajit Jaokar:
Ajit Jaokar
2018年,一些趨勢(shì)開(kāi)始迅速流行。一個(gè)是自動(dòng)化機(jī)器學(xué)習(xí),一個(gè)是強(qiáng)化學(xué)習(xí)。這兩個(gè)新生趨勢(shì)將在2019年進(jìn)一步發(fā)展。作為我在牛津大學(xué)開(kāi)設(shè)的物聯(lián)網(wǎng)數(shù)據(jù)科學(xué)課程教學(xué)內(nèi)容的一部分,我認(rèn)為物聯(lián)網(wǎng)將越來(lái)越多地融入大型生態(tài)系統(tǒng)之中,如自動(dòng)駕駛汽車、機(jī)器人和智能城市。
2019年,一種新的機(jī)器人技術(shù),即協(xié)同機(jī)器人(cobots)將成為一個(gè)關(guān)鍵趨勢(shì)。與之前的生產(chǎn)線機(jī)器人不同,新的機(jī)器人將能夠自主活動(dòng),可以理解情感(在我的課程中,我們也在與從事該領(lǐng)域研究的情感研究實(shí)驗(yàn)室合作)。
我的最后一個(gè)觀點(diǎn)可能有些爭(zhēng)議:在2019年,數(shù)據(jù)科學(xué)家的角色將傾向于從研究轉(zhuǎn)向產(chǎn)品開(kāi)發(fā)。我認(rèn)為人工智能與下一代數(shù)據(jù)產(chǎn)品的誕生密切相關(guān)。數(shù)據(jù)科學(xué)家的作用會(huì)發(fā)生相應(yīng)的轉(zhuǎn)變。
今年開(kāi)源工具數(shù)量增加,所有人都能接觸AI
RE.WORK創(chuàng)始人Nikita Johnson:
Nikita Johnson
我們?cè)?018年親眼目睹的一個(gè)變化就是開(kāi)源工具數(shù)量的增加,這些工具降低了AI的技術(shù)門檻,使所有人都能更容易地接觸到AI,加強(qiáng)了不同組織機(jī)構(gòu)之間的協(xié)作。這些開(kāi)源社區(qū)對(duì)于確保AI在社會(huì)和企業(yè)的所有領(lǐng)域中的傳播至關(guān)重要。
同樣,在2019年,我們將看到關(guān)注AI的公司數(shù)量有所增加,谷歌和微軟最近都啟動(dòng)了旨在“讓AI造福社會(huì)”的項(xiàng)目。隨著全社會(huì)對(duì)企業(yè)提出更高的社會(huì)目標(biāo)的要求,這種將AI技術(shù)轉(zhuǎn)化為對(duì)社會(huì)積極影響的趨勢(shì),正在獲得越來(lái)越多的支持和動(dòng)力。
2018最大的進(jìn)展是沒(méi)有進(jìn)展!
CMU機(jī)器學(xué)習(xí)助理教授Zachary Chase Lipton:
我先說(shuō)說(shuō)深度學(xué)習(xí)。深度學(xué)習(xí)占機(jī)器學(xué)習(xí)和人工智能的公共話語(yǔ)的最大份額。
首先我要提一句,我的觀點(diǎn)可能會(huì)惹惱一些人,但我覺(jué)得這是2018年的一個(gè)合理的解讀:最大的進(jìn)展是沒(méi)有進(jìn)展!
為什么這么說(shuō)呢?因?yàn)檫@些進(jìn)展里面,很大一部分是改進(jìn)與定性新觀念的本質(zhì)。
BigGAN是一個(gè)GAN,只不過(guò)更大。GANS逐漸的增長(zhǎng),產(chǎn)生了真正有趣的結(jié)果,在某些意義上的卻是邁出了一大步。
然而,從方法論上來(lái)說(shuō),它仍然只是GAN,只不過(guò)是有了更聰明的課程學(xué)習(xí)技巧的GAN。
再來(lái)說(shuō)說(shuō)NLP,今年最重要的故事是ELMO和BERT的情境化嵌入。這些絕對(duì)是讓人驚嘆的進(jìn)步。
但至少Andrew Dai和Quoc Le,從2015年或者2016年就開(kāi)始預(yù)訓(xùn)練了語(yǔ)言模型,并對(duì)下游分類任務(wù)進(jìn)行了微調(diào),只不過(guò)當(dāng)時(shí)的規(guī)模較小。所以我覺(jué)得,今年沒(méi)有產(chǎn)生什么“大創(chuàng)意”。
雖然沒(méi)有大創(chuàng)意,但今年也有他積極的一面,可能就是我們并沒(méi)有將現(xiàn)有技術(shù)全部功力發(fā)揮出來(lái)。硬件、系統(tǒng)和工具的快速發(fā)展,可能會(huì)帶來(lái)二次飛躍。
我認(rèn)為,現(xiàn)在正在醞釀的很多新想法,都出現(xiàn)在新興的深度學(xué)習(xí)理論中。很多研究人員,包括Sanjeev Arora,Tengyu Ma,Daniel Soudry,Nati Srebro等等,他們正在做一些非常令人興奮的工作。
很長(zhǎng)一段時(shí)間,我們有了第一原理理論,這些理論是嚴(yán)謹(jǐn)?shù)?,但?jīng)常忽略了實(shí)踐。
然后是太過(guò)“學(xué)術(shù)向”的機(jī)器學(xué)習(xí),它確實(shí)很科學(xué),但卻嵌入打榜中無(wú)法自拔。
現(xiàn)在出現(xiàn)了一種新的探究模式,理論與實(shí)驗(yàn)的結(jié)合更緊密。你開(kāi)始看到受實(shí)驗(yàn)啟發(fā)的理論論文,進(jìn)行實(shí)驗(yàn)的理論論文。
最近,我從一個(gè)鼓舞人心的經(jīng)驗(yàn)中得到一個(gè)想法,就是我們可以從理論論文中獲得一個(gè)以前從來(lái)沒(méi)發(fā)現(xiàn)過(guò)的自然現(xiàn)象。
2019年及以后,我認(rèn)為應(yīng)用機(jī)器學(xué)習(xí)會(huì)有好的發(fā)展,我們正急于進(jìn)入所有這些聲稱“解決”問(wèn)題的實(shí)際領(lǐng)域。但到目前為止,我們唯一可依賴的只有監(jiān)督學(xué)習(xí)。
模式匹配目前還是受限于一些難題。受監(jiān)督的模型可以找到關(guān)聯(lián),但找不出原因。我們不知道哪些信息可以安全依賴,因?yàn)樗赡軙?huì)隨著時(shí)間的推移而發(fā)生變化。這些模型沒(méi)有告訴我們干預(yù)措施會(huì)產(chǎn)生什么樣的影響。
我認(rèn)為在接下來(lái)的一年里,會(huì)看到更多機(jī)器學(xué)習(xí)項(xiàng)目被廢棄,或者正是因?yàn)楹诤袑傩远萑肜Ь车陌咐?/p>
我們會(huì)看到社區(qū)中最有創(chuàng)意的成員,會(huì)做出一些改變。不再一味追求打榜,而是更多的關(guān)注與填補(bǔ)代表性學(xué)習(xí)和因果推理之間的鴻溝。
AutoML達(dá)到臨界點(diǎn)
KDnuggets的編輯Matthew Mayo:
對(duì)我而言,2018年的機(jī)器學(xué)習(xí)是精細(xì)的。例如,得益于用于文本分類的通用語(yǔ)言模型微調(diào)(ULMFiT)和來(lái)自變換器的雙向編碼器表示(BERT)之類的技術(shù),轉(zhuǎn)移學(xué)習(xí)有了更廣泛的應(yīng)用和興趣,特別是在自然語(yǔ)言處理中。
這些并不是過(guò)去一年NLP的唯一進(jìn)步; 另外需要注意的是語(yǔ)言模型嵌入(ELMo),這是一個(gè)深層語(yǔ)境化的單詞表示模型,讓模型的每個(gè)任務(wù)都有相當(dāng)大的改進(jìn)。
今年的其他突破似乎集中在對(duì)BigGAN等現(xiàn)有技術(shù)的改進(jìn)上。此外,由于眾多倡導(dǎo)型社區(qū)成員的聲音,關(guān)于機(jī)器學(xué)習(xí)包容性和多樣性的非技術(shù)性討論成為主流(NeurIPS就是其中的一個(gè)例子)。
我相信,在2019年,研究注意力將從監(jiān)督學(xué)習(xí)轉(zhuǎn)向強(qiáng)化學(xué)習(xí)和半監(jiān)督學(xué)習(xí)等領(lǐng)域,因?yàn)檫@些領(lǐng)域的潛在應(yīng)用越來(lái)越多地得到實(shí)現(xiàn)。例如,我們現(xiàn)在處于圖像識(shí)別和生成已經(jīng)到了“解決”地步,并且從中學(xué)到的東西可以幫助研究人員追求更復(fù)雜的機(jī)器應(yīng)用學(xué)習(xí)。
作為業(yè)余自動(dòng)化機(jī)器學(xué)習(xí)(AutoML)傳播者,我認(rèn)為AutoML將逐步進(jìn)步,以達(dá)到普通的監(jiān)督學(xué)習(xí)任務(wù)能夠通過(guò)可用的方式或尚未完全完善的方法,自信地進(jìn)行算法選擇和超參數(shù)優(yōu)化。
我認(rèn)為自動(dòng)化機(jī)器學(xué)習(xí)的普遍看法將會(huì)有轉(zhuǎn)變(或者已經(jīng)達(dá)到臨界點(diǎn)):從更換開(kāi)發(fā)者到擴(kuò)張他們。AutoML將不再被視為機(jī)器學(xué)習(xí)工具箱的替代品,而是作為其中包含的另一種工具。相反,我認(rèn)為,開(kāi)發(fā)者將日常使用這些工具,并且知道如何去操作,這將成為定局。
新的數(shù)據(jù)科學(xué)碩士課程大幅增加
Facebook數(shù)據(jù)科學(xué)家Brandon Rohrer:
2018年的一個(gè)重要趨勢(shì)是數(shù)據(jù)科學(xué)教育機(jī)會(huì)的擴(kuò)散和不斷成熟。在線課程成為原始的數(shù)據(jù)科學(xué)教育場(chǎng)所,這些課程在各個(gè)層面都很受歡迎,每年都有更多的學(xué)生、發(fā)展和新的主題。
在學(xué)術(shù)界,新的數(shù)據(jù)科學(xué)碩士課程正以每年約十幾個(gè)的速度在增加。我們的高校正在響應(yīng)公司和學(xué)生的請(qǐng)求,為數(shù)據(jù)相關(guān)領(lǐng)域提供專門計(jì)劃。
另一方面,教程博客文章無(wú)處不在。它們?yōu)樽x者對(duì)于數(shù)據(jù)科學(xué)的理解做出了巨大貢獻(xiàn)。
在2019年及以后,數(shù)據(jù)科學(xué)的學(xué)術(shù)計(jì)劃將更普遍地幫助人們學(xué)習(xí)基礎(chǔ)相關(guān)技能,以實(shí)現(xiàn)首批數(shù)據(jù)科學(xué)崗位的落地。這是件好事,受認(rèn)證的機(jī)構(gòu)將填補(bǔ)這方面的長(zhǎng)期空缺。
到目前為止,數(shù)據(jù)科學(xué)的資格證書可以在很大程度上證明以前的工作經(jīng)驗(yàn)。這會(huì)創(chuàng)建一個(gè)Catch-22。新數(shù)據(jù)科學(xué)家無(wú)法證明自己是否有資格,因?yàn)樗麄儚奈从羞^(guò)數(shù)據(jù)科學(xué)的工作經(jīng)驗(yàn),而惡性循環(huán)的是這些人也無(wú)法獲得相關(guān)工作,因?yàn)樗麄儫o(wú)法證明自己是否有資格。而教育機(jī)構(gòu)的證書是打破這一循環(huán)的重要方式。
但是,在線課程不會(huì)隨處可見(jiàn)。因?yàn)樵S多人對(duì)大學(xué)教育所要求付出的時(shí)間和經(jīng)濟(jì)無(wú)法作出保證。
現(xiàn)在這些課程已經(jīng)出現(xiàn),數(shù)據(jù)科學(xué)教育將始終具有實(shí)用的方式。通過(guò)對(duì)項(xiàng)目工作的相關(guān)經(jīng)驗(yàn)和在線培訓(xùn),即使沒(méi)有學(xué)位,新的數(shù)據(jù)科學(xué)家也有機(jī)會(huì)展示他們的技能。在線課程和教程將繼續(xù)變得更普遍、更復(fù)雜,對(duì)數(shù)據(jù)科學(xué)教育也更為重要。
事實(shí)上,幾個(gè)著名的數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)項(xiàng)目已經(jīng)把相關(guān)課程上傳到網(wǎng)上了,甚至為非預(yù)科學(xué)生提供入學(xué)選擇。我預(yù)計(jì)數(shù)據(jù)科學(xué)大學(xué)學(xué)位與在線培訓(xùn)課程之間的界限將進(jìn)一步模糊。
三大事件讓2018被銘記
ITV高級(jí)數(shù)據(jù)科學(xué)家Elena Sharova:
Elena Sharova
回顧2018年:
我認(rèn)為,在AI和ML社區(qū)中,2018年有三大事件將被銘記。
首先是歐盟全球數(shù)據(jù)保護(hù)條例(GDPR)的啟動(dòng),該條例旨在提高個(gè)人數(shù)據(jù)使用的公平性和透明度。該條例使個(gè)人有權(quán)控制其個(gè)人數(shù)據(jù)和了解個(gè)人數(shù)據(jù)被如何使用,但也引起了對(duì)法律解釋的一些混淆。到目前為止,GDPR的最終結(jié)果是,許多公司對(duì)數(shù)據(jù)處理做了一些表面上的更改就認(rèn)為自己是合規(guī)的,對(duì)忽略了重新設(shè)計(jì)數(shù)據(jù)存儲(chǔ)和處理的基礎(chǔ)設(shè)施的基本需求。
其次,是“劍橋分析”丑聞,這個(gè)事件給整個(gè)數(shù)據(jù)科學(xué)界蒙上了一層陰影。如果說(shuō)之前的辯論主要是關(guān)于確保AI和ML產(chǎn)品的公平性,那么這次丑聞引發(fā)了更深層次的道德問(wèn)題。對(duì)Facebook在這一事件中的參與程度的最新調(diào)查意味著,這些問(wèn)題不會(huì)很快消失。隨著數(shù)據(jù)科學(xué)領(lǐng)域的成熟,這樣的事情還將發(fā)生在許多行業(yè),而不僅僅是政治領(lǐng)域。有些案件將更加悲慘,比如亞利桑那州的Uber自動(dòng)駕駛汽車案,它們將引發(fā)強(qiáng)烈的公眾反應(yīng)。技術(shù)就是力量,伴隨著力量而來(lái)的是責(zé)任。
最后,從更積極的方面來(lái)看,Amazon最新的自研服務(wù)器處理器芯片意味著,一般人獲取云計(jì)算將不再是一個(gè)成本問(wèn)題。
展望2019年:
數(shù)據(jù)科學(xué)家的角色和職責(zé)將不僅僅是建立模型來(lái)實(shí)現(xiàn)準(zhǔn)確的預(yù)測(cè)。
對(duì)于ML、AI和數(shù)據(jù)科學(xué)從業(yè)者來(lái)說(shuō),2019年的主要趨勢(shì)將是遵循既定的軟件開(kāi)發(fā)實(shí)踐的越來(lái)越多的責(zé)任,尤其是在測(cè)試和維護(hù)方面。數(shù)據(jù)科學(xué)的最終產(chǎn)品必須與公司技術(shù)棧的其余部分共存。有效運(yùn)行和維護(hù)專有軟件的要求將適用于我們構(gòu)建的模型和解決方案。這意味著最好的軟件開(kāi)發(fā)實(shí)踐將支持我們需要遵循的機(jī)器學(xué)習(xí)規(guī)則。
遷移學(xué)習(xí)成功應(yīng)用到NLP
fast.ai 創(chuàng)始人,舊金山大學(xué)副教授Rachel Thomas:
Rachel Thomas
回顧2018年:
遷移學(xué)習(xí)成功應(yīng)用到NLP
反烏托邦式的濫用人工智能(包括由仇恨團(tuán)體和獨(dú)裁主義論者進(jìn)行的監(jiān)視和操縱)日益受到關(guān)注
遷移學(xué)習(xí)是將預(yù)訓(xùn)練模型應(yīng)用到一個(gè)新的數(shù)據(jù)集的實(shí)踐。遷移學(xué)習(xí)是計(jì)算機(jī)視覺(jué)領(lǐng)域爆炸式進(jìn)步的一個(gè)關(guān)鍵因素,在2018年,遷移學(xué)習(xí)成功應(yīng)用到了NLP的工作,包括fast.ai和SebasTIan Ruder的ULMFiT,艾倫研究所的ELMo, OpenAI transformer,以及谷歌的BERT。這些進(jìn)步令人興奮,也令人擔(dān)憂。
正在持續(xù)的問(wèn)題,如Facebook在緬甸種族滅絕中扮演的決定性角色,YouTube不成比例地推薦陰謀論(其中許多是促進(jìn)白人至上注意),以及AI在政府和執(zhí)法機(jī)構(gòu)監(jiān)控中的使用,在2018年越來(lái)越引起主流媒體的關(guān)注。雖然人工智能被濫用是可怕的,但有越來(lái)越多的人開(kāi)始意識(shí)到它們,并越來(lái)越多地予以反擊,這是件好事。
展望2019年:
我預(yù)計(jì)這些趨勢(shì)將在2019年繼續(xù)下去,伴隨著NLP的快速發(fā)展(正如SebasTIan Ruder所寫的那樣,“NLP的ImageNet時(shí)代已經(jīng)到來(lái)”),以及更多的反烏托邦式的發(fā)展,包括技術(shù)如何被用于監(jiān)視、煽動(dòng)暴力和危險(xiǎn)政治運(yùn)動(dòng)操縱等。
NLP詞嵌入有了兩大重要進(jìn)展
專門從事搜索、發(fā)現(xiàn)和ML/AI的獨(dú)立顧問(wèn)Daniel Tunkelang:
Daniel Tunkelang
回顧2018年:
2018年,自然語(yǔ)言處理和理解的詞嵌入的復(fù)雜性方面有了兩大重要進(jìn)展。
第一次是在三月。艾倫人工智能研究所和華盛頓大學(xué)的研究人員發(fā)表了Deep contextualized word representaTIons一文,提出了ELMo(Embeddings from Language Models),這是一種開(kāi)源的深度語(yǔ)境化詞匯表示,改進(jìn)了word2vec或GloVe這類上下文無(wú)關(guān)的嵌入。作者通過(guò)簡(jiǎn)單地替換ELMo預(yù)訓(xùn)練模型中的向量,證明了對(duì)現(xiàn)有NLP系統(tǒng)的改進(jìn)。
第二次是在11月。谷歌開(kāi)源了BERT(BidirecTIonal Encoder Representations from Transformers),這是一個(gè)雙向的、無(wú)監(jiān)督的語(yǔ)言表示,在維基百科語(yǔ)料上進(jìn)行了預(yù)訓(xùn)練。正如作者在“BERT:用于語(yǔ)言理解的深層雙向Transformers的預(yù)訓(xùn)練”一文中展示的,他們?cè)诟鞣NNLP基準(zhǔn)測(cè)試中取得了顯著的改進(jìn),甚至比ELMo更強(qiáng)。
從智能音箱的迅速普及(到2018年底將達(dá)到1億臺(tái)左右)到移動(dòng)電話上數(shù)字助理的普及,自然語(yǔ)言理解的進(jìn)步正迅速?gòu)膶?shí)驗(yàn)室轉(zhuǎn)移到現(xiàn)實(shí)世界。對(duì)于NLP研究和實(shí)踐來(lái)說(shuō),這是一個(gè)激動(dòng)人心的時(shí)代。
展望2019年:
但我們還有很長(zhǎng)的路要走。
同樣是在今年,艾倫研究所的研究人員發(fā)布了《Swag:用于基礎(chǔ)常識(shí)推理的大型對(duì)抗式數(shù)據(jù)集》(Swag: A large - large Adversarial Dataset for Grounded Commonsense),這是一個(gè)用于需要常識(shí)理解的句子完成任務(wù)的數(shù)據(jù)集。他們的實(shí)驗(yàn)表明,最先進(jìn)的NLP仍然遠(yuǎn)遠(yuǎn)落后于人類的表現(xiàn)。
但希望我們能在2019年看到更多的NLP突破。計(jì)算機(jī)科學(xué)領(lǐng)域許多最優(yōu)秀的人才都在從事這方面的工作,工業(yè)界也渴望應(yīng)用他們的成果。
回顧2018年:焦點(diǎn)開(kāi)始從標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)轉(zhuǎn)向更具挑戰(zhàn)性的機(jī)器學(xué)習(xí)問(wèn)題,像半監(jiān)督學(xué)習(xí)、領(lǐng)域自適應(yīng)、主動(dòng)學(xué)習(xí)和生成模型。GAN仍然是非常受歡迎的,研究人員嘗試更困難的任務(wù),如bigGANs和video-to-video合成。開(kāi)發(fā)了替代的生成模型(如神經(jīng)渲染模型),以在單個(gè)網(wǎng)絡(luò)中組合生成和預(yù)測(cè)以幫助半監(jiān)督學(xué)習(xí)。
研究人員將深度學(xué)習(xí)的應(yīng)用擴(kuò)展到許多科學(xué)領(lǐng)域,如地震預(yù)測(cè)、材料科學(xué)、蛋白質(zhì)工程、高能物理和控制系統(tǒng)。在這些情況下,領(lǐng)域知識(shí)和約束與學(xué)習(xí)相結(jié)合。
預(yù)測(cè)2019年:“人工智能將模擬和現(xiàn)實(shí)聯(lián)系起來(lái),變得更安全,更具物理意識(shí)”
我們將看到開(kāi)發(fā)新的領(lǐng)域自適應(yīng)技術(shù),以便將知識(shí)從模擬無(wú)縫轉(zhuǎn)移到現(xiàn)實(shí)世界。使用模擬將有助于我們克服數(shù)據(jù)稀缺性并加快新領(lǐng)域和問(wèn)題的學(xué)習(xí)。使AI從模擬到實(shí)際數(shù)據(jù)(Sim2real)將對(duì)機(jī)器人技術(shù)、自動(dòng)駕駛、醫(yī)學(xué)成像、地震預(yù)報(bào)等產(chǎn)生重大影響。模擬是解決自動(dòng)駕駛等安全關(guān)鍵應(yīng)用中所有可能情況的好方法。內(nèi)置于復(fù)雜模擬器中的知識(shí)將以新穎的方式被使用,以使AI更具物理意識(shí),更強(qiáng)大,并能夠推廣到新的和看不見(jiàn)的場(chǎng)景。
2019移動(dòng)設(shè)備上的實(shí)時(shí)語(yǔ)音生成與真人無(wú)異
Gartner機(jī)器學(xué)習(xí)團(tuán)隊(duì)負(fù)責(zé)人Andriy Burkov:
Andriy Burkov
這是我自己作為一名實(shí)踐者的看法,不代表Gartner基于研究的官方聲明。以下是我的想法:
回顧2018年:TensorFlow在學(xué)術(shù)界輸給了PyTorch。有時(shí)谷歌的巨大影響力可能會(huì)使市場(chǎng)處于次優(yōu)的方向,因?yàn)镸apReduce和隨后的hadoop狂熱已經(jīng)發(fā)生了這種情況。
Deepfakes(以及類似的聲音技術(shù))粉碎了最值得信賴的信息來(lái)源:視頻。沒(méi)有人能敢再說(shuō)出這樣的話:我看到過(guò)那個(gè)人說(shuō)這些話的視頻。幾十年前我們不再相信印刷文字,但直到現(xiàn)在,視頻還是不可動(dòng)搖。
強(qiáng)化學(xué)習(xí)以深度學(xué)習(xí)的形式回歸是非常意外和酷!
Google代替人類致電餐廳并假裝(成功)成為真正的人類系統(tǒng)是一個(gè)里程碑。然而,它引發(fā)了許多關(guān)于道德和人工智能的問(wèn)題。
個(gè)人助理和聊天機(jī)器人很快就達(dá)到了極限。它們比以往任何時(shí)候都好,但不如去年所希望的那么好。
展望2019年:
1)我希望每個(gè)人都對(duì)今年的AutoML承諾感到興奮。我也期望它失?。ǔ艘恍┓浅>唧w和明確定義的案例,如不依靠手工的圖像識(shí)別、機(jī)器翻譯和文本分類,原始數(shù)據(jù)接近于機(jī)器期望作為輸入,并且數(shù)據(jù)是豐富的)。
2)營(yíng)銷自動(dòng)化:利用成熟的生成對(duì)抗網(wǎng)絡(luò)和變分自動(dòng)編碼器,可以生成數(shù)千張相同人物或圖像的圖片,這些圖像之間的面部表情或情緒差異很小。根據(jù)消費(fèi)者對(duì)這些圖片的反應(yīng),我們可以制作出最佳的廣告活動(dòng)。
3)移動(dòng)設(shè)備上的實(shí)時(shí)語(yǔ)音生成與真實(shí)人類無(wú)法區(qū)分。
4)自動(dòng)駕駛的出租車將保持在測(cè)試/ PoC階段。
2018年成為對(duì)AI過(guò)度恐懼的一年
華盛頓大學(xué)計(jì)算機(jī)科學(xué)與工程系教授Pedro Domingos:
Pedro Domingos
經(jīng)歷了多年炒作,2018年成為對(duì)AI過(guò)度恐懼的一年。
按一些媒體、甚至是一些研究人員的觀點(diǎn),你會(huì)認(rèn)為特朗普在2016年大選獲勝全拜劍橋分析公司所賜、機(jī)器學(xué)習(xí)算法是充斥偏見(jiàn)和歧視的垃圾、機(jī)器人正在取代我們的工作,不久就將霸占我們的生活等等。這些論調(diào)不僅僅是說(shuō)說(shuō)而已:歐洲和加州已經(jīng)通過(guò)了更加嚴(yán)厲的隱私法,聯(lián)合國(guó)正在就AI武器禁令等內(nèi)容進(jìn)行激烈辯論。公眾對(duì)AI的觀點(diǎn)越來(lái)越暗淡,這種現(xiàn)象即危險(xiǎn)又不公平。
希望2019年,人們能夠回歸理性。
數(shù)據(jù)科學(xué)家的角色將傾向于從研究轉(zhuǎn)向產(chǎn)品開(kāi)發(fā)
牛津大學(xué)物聯(lián)網(wǎng)課程的首席數(shù)據(jù)科學(xué)家和創(chuàng)始人Ajit Jaokar:
2018年,一些趨勢(shì)開(kāi)始迅速流行。一個(gè)是自動(dòng)化機(jī)器學(xué)習(xí),一個(gè)是強(qiáng)化學(xué)習(xí)。這兩個(gè)新生趨勢(shì)將在2019年進(jìn)一步發(fā)展。作為我在牛津大學(xué)開(kāi)設(shè)的物聯(lián)網(wǎng)數(shù)據(jù)科學(xué)課程教學(xué)內(nèi)容的一部分,我認(rèn)為物聯(lián)網(wǎng)將越來(lái)越多地融入大型生態(tài)系統(tǒng)之中,如自動(dòng)駕駛汽車、機(jī)器人和智能城市。
2019年,一種新的機(jī)器人技術(shù),即協(xié)同機(jī)器人(cobots)將成為一個(gè)關(guān)鍵趨勢(shì)。與之前的生產(chǎn)線機(jī)器人不同,新的機(jī)器人將能夠自主活動(dòng),可以理解情感(在我的課程中,我們也在與從事該領(lǐng)域研究的情感研究實(shí)驗(yàn)室合作)。
我的最后一個(gè)觀點(diǎn)可能有些爭(zhēng)議:在2019年,數(shù)據(jù)科學(xué)家的角色將傾向于從研究轉(zhuǎn)向產(chǎn)品開(kāi)發(fā)。我認(rèn)為人工智能與下一代數(shù)據(jù)產(chǎn)品的誕生密切相關(guān)。數(shù)據(jù)科學(xué)家的作用會(huì)發(fā)生相應(yīng)的轉(zhuǎn)變。
今年開(kāi)源工具數(shù)量增加,所有人都能接觸AI
RE.WORK創(chuàng)始人Nikita Johnson:
我們?cè)?018年親眼目睹的一個(gè)變化就是開(kāi)源工具數(shù)量的增加,這些工具降低了AI的技術(shù)門檻,使所有人都能更容易地接觸到AI,加強(qiáng)了不同組織機(jī)構(gòu)之間的協(xié)作。這些開(kāi)源社區(qū)對(duì)于確保AI在社會(huì)和企業(yè)的所有領(lǐng)域中的傳播至關(guān)重要。
同樣,在2019年,我們將看到關(guān)注AI的公司數(shù)量有所增加,谷歌和微軟最近都啟動(dòng)了旨在“讓AI造福社會(huì)”的項(xiàng)目。隨著全社會(huì)對(duì)企業(yè)提出更高的社會(huì)目標(biāo)的要求,這種將AI技術(shù)轉(zhuǎn)化為對(duì)社會(huì)積極影響的趨勢(shì),正在獲得越來(lái)越多的支持和動(dòng)力。
2018最大的進(jìn)展是沒(méi)有進(jìn)展!
CMU機(jī)器學(xué)習(xí)助理教授Zachary Chase Lipton:
Zachary Chase Lipton
我先說(shuō)說(shuō)深度學(xué)習(xí)。深度學(xué)習(xí)占機(jī)器學(xué)習(xí)和人工智能的公共話語(yǔ)的最大份額。
首先我要提一句,我的觀點(diǎn)可能會(huì)惹惱一些人,但我覺(jué)得這是2018年的一個(gè)合理的解讀:最大的進(jìn)展是沒(méi)有進(jìn)展!
為什么這么說(shuō)呢?因?yàn)檫@些進(jìn)展里面,很大一部分是改進(jìn)與定性新觀念的本質(zhì)。
BigGAN是一個(gè)GAN,只不過(guò)更大。GANS逐漸的增長(zhǎng),產(chǎn)生了真正有趣的結(jié)果,在某些意義上的卻是邁出了一大步。
然而,從方法論上來(lái)說(shuō),它仍然只是GAN,只不過(guò)是有了更聰明的課程學(xué)習(xí)技巧的GAN。
再來(lái)說(shuō)說(shuō)NLP,今年最重要的故事是ELMO和BERT的情境化嵌入。這些絕對(duì)是讓人驚嘆的進(jìn)步。
但至少Andrew Dai和Quoc Le,從2015年或者2016年就開(kāi)始預(yù)訓(xùn)練了語(yǔ)言模型,并對(duì)下游分類任務(wù)進(jìn)行了微調(diào),只不過(guò)當(dāng)時(shí)的規(guī)模較小。所以我覺(jué)得,今年沒(méi)有產(chǎn)生什么“大創(chuàng)意”。
雖然沒(méi)有大創(chuàng)意,但今年也有他積極的一面,可能就是我們并沒(méi)有將現(xiàn)有技術(shù)全部功力發(fā)揮出來(lái)。硬件、系統(tǒng)和工具的快速發(fā)展,可能會(huì)帶來(lái)二次飛躍。
我認(rèn)為,現(xiàn)在正在醞釀的很多新想法,都出現(xiàn)在新興的深度學(xué)習(xí)理論中。很多研究人員,包括Sanjeev Arora,Tengyu Ma,Daniel Soudry,Nati Srebro等等,他們正在做一些非常令人興奮的工作。
很長(zhǎng)一段時(shí)間,我們有了第一原理理論,這些理論是嚴(yán)謹(jǐn)?shù)?,但?jīng)常忽略了實(shí)踐。
然后是太過(guò)“學(xué)術(shù)向”的機(jī)器學(xué)習(xí),它確實(shí)很科學(xué),但卻嵌入打榜中無(wú)法自拔。
現(xiàn)在出現(xiàn)了一種新的探究模式,理論與實(shí)驗(yàn)的結(jié)合更緊密。你開(kāi)始看到受實(shí)驗(yàn)啟發(fā)的理論論文,進(jìn)行實(shí)驗(yàn)的理論論文。
最近,我從一個(gè)鼓舞人心的經(jīng)驗(yàn)中得到一個(gè)想法,就是我們可以從理論論文中獲得一個(gè)以前從來(lái)沒(méi)發(fā)現(xiàn)過(guò)的自然現(xiàn)象。
2019年及以后,我認(rèn)為應(yīng)用機(jī)器學(xué)習(xí)會(huì)有好的發(fā)展,我們正急于進(jìn)入所有這些聲稱“解決”問(wèn)題的實(shí)際領(lǐng)域。但到目前為止,我們唯一可依賴的只有監(jiān)督學(xué)習(xí)。
模式匹配目前還是受限于一些難題。受監(jiān)督的模型可以找到關(guān)聯(lián),但找不出原因。我們不知道哪些信息可以安全依賴,因?yàn)樗赡軙?huì)隨著時(shí)間的推移而發(fā)生變化。這些模型沒(méi)有告訴我們干預(yù)措施會(huì)產(chǎn)生什么樣的影響。
我認(rèn)為在接下來(lái)的一年里,會(huì)看到更多機(jī)器學(xué)習(xí)項(xiàng)目被廢棄,或者正是因?yàn)楹诤袑傩远萑肜Ь车陌咐?/p>
我們會(huì)看到社區(qū)中最有創(chuàng)意的成員,會(huì)做出一些改變。不再一味追求打榜,而是更多的關(guān)注與填補(bǔ)代表性學(xué)習(xí)和因果推理之間的鴻溝。
AutoML達(dá)到臨界點(diǎn)
KDnuggets的編輯Matthew Mayo:
對(duì)我而言,2018年的機(jī)器學(xué)習(xí)是精細(xì)的。例如,得益于用于文本分類的通用語(yǔ)言模型微調(diào)(ULMFiT)和來(lái)自變換器的雙向編碼器表示(BERT)之類的技術(shù),轉(zhuǎn)移學(xué)習(xí)有了更廣泛的應(yīng)用和興趣,特別是在自然語(yǔ)言處理中。
這些并不是過(guò)去一年NLP的唯一進(jìn)步; 另外需要注意的是語(yǔ)言模型嵌入(ELMo),這是一個(gè)深層語(yǔ)境化的單詞表示模型,讓模型的每個(gè)任務(wù)都有相當(dāng)大的改進(jìn)。
今年的其他突破似乎集中在對(duì)BigGAN等現(xiàn)有技術(shù)的改進(jìn)上。此外,由于眾多倡導(dǎo)型社區(qū)成員的聲音,關(guān)于機(jī)器學(xué)習(xí)包容性和多樣性的非技術(shù)性討論成為主流(NeurIPS就是其中的一個(gè)例子)。
我相信,在2019年,研究注意力將從監(jiān)督學(xué)習(xí)轉(zhuǎn)向強(qiáng)化學(xué)習(xí)和半監(jiān)督學(xué)習(xí)等領(lǐng)域,因?yàn)檫@些領(lǐng)域的潛在應(yīng)用越來(lái)越多地得到實(shí)現(xiàn)。例如,我們現(xiàn)在處于圖像識(shí)別和生成已經(jīng)到了“解決”地步,并且從中學(xué)到的東西可以幫助研究人員追求更復(fù)雜的機(jī)器應(yīng)用學(xué)習(xí)。
作為業(yè)余自動(dòng)化機(jī)器學(xué)習(xí)(AutoML)傳播者,我認(rèn)為AutoML將逐步進(jìn)步,以達(dá)到普通的監(jiān)督學(xué)習(xí)任務(wù)能夠通過(guò)可用的方式或尚未完全完善的方法,自信地進(jìn)行算法選擇和超參數(shù)優(yōu)化。
我認(rèn)為自動(dòng)化機(jī)器學(xué)習(xí)的普遍看法將會(huì)有轉(zhuǎn)變(或者已經(jīng)達(dá)到臨界點(diǎn)):從更換開(kāi)發(fā)者到擴(kuò)張他們。AutoML將不再被視為機(jī)器學(xué)習(xí)工具箱的替代品,而是作為其中包含的另一種工具。相反,我認(rèn)為,開(kāi)發(fā)者將日常使用這些工具,并且知道如何去操作,這將成為定局。
新的數(shù)據(jù)科學(xué)碩士課程大幅增加
Facebook數(shù)據(jù)科學(xué)家Brandon Rohrer:
2018年的一個(gè)重要趨勢(shì)是數(shù)據(jù)科學(xué)教育機(jī)會(huì)的擴(kuò)散和不斷成熟。在線課程成為原始的數(shù)據(jù)科學(xué)教育場(chǎng)所,這些課程在各個(gè)層面都很受歡迎,每年都有更多的學(xué)生、發(fā)展和新的主題。
在學(xué)術(shù)界,新的數(shù)據(jù)科學(xué)碩士課程正以每年約十幾個(gè)的速度在增加。我們的高校正在響應(yīng)公司和學(xué)生的請(qǐng)求,為數(shù)據(jù)相關(guān)領(lǐng)域提供專門計(jì)劃。
另一方面,教程博客文章無(wú)處不在。它們?yōu)樽x者對(duì)于數(shù)據(jù)科學(xué)的理解做出了巨大貢獻(xiàn)。
在2019年及以后,數(shù)據(jù)科學(xué)的學(xué)術(shù)計(jì)劃將更普遍地幫助人們學(xué)習(xí)基礎(chǔ)相關(guān)技能,以實(shí)現(xiàn)首批數(shù)據(jù)科學(xué)崗位的落地。這是件好事,受認(rèn)證的機(jī)構(gòu)將填補(bǔ)這方面的長(zhǎng)期空缺。
到目前為止,數(shù)據(jù)科學(xué)的資格證書可以在很大程度上證明以前的工作經(jīng)驗(yàn)。這會(huì)創(chuàng)建一個(gè)Catch-22。新數(shù)據(jù)科學(xué)家無(wú)法證明自己是否有資格,因?yàn)樗麄儚奈从羞^(guò)數(shù)據(jù)科學(xué)的工作經(jīng)驗(yàn),而惡性循環(huán)的是這些人也無(wú)法獲得相關(guān)工作,因?yàn)樗麄儫o(wú)法證明自己是否有資格。而教育機(jī)構(gòu)的證書是打破這一循環(huán)的重要方式。
但是,在線課程不會(huì)隨處可見(jiàn)。因?yàn)樵S多人對(duì)大學(xué)教育所要求付出的時(shí)間和經(jīng)濟(jì)無(wú)法作出保證。
現(xiàn)在這些課程已經(jīng)出現(xiàn),數(shù)據(jù)科學(xué)教育將始終具有實(shí)用的方式。通過(guò)對(duì)項(xiàng)目工作的相關(guān)經(jīng)驗(yàn)和在線培訓(xùn),即使沒(méi)有學(xué)位,新的數(shù)據(jù)科學(xué)家也有機(jī)會(huì)展示他們的技能。在線課程和教程將繼續(xù)變得更普遍、更復(fù)雜,對(duì)數(shù)據(jù)科學(xué)教育也更為重要。
事實(shí)上,幾個(gè)著名的數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)項(xiàng)目已經(jīng)把相關(guān)課程上傳到網(wǎng)上了,甚至為非預(yù)科學(xué)生提供入學(xué)選擇。我預(yù)計(jì)數(shù)據(jù)科學(xué)大學(xué)學(xué)位與在線培訓(xùn)課程之間的界限將進(jìn)一步模糊。