人工智能的現(xiàn)狀怎樣
掃描二維碼
隨時隨地手機看文章
從1956年達特茅斯會議提出AI開始,AI的研究經(jīng)歷幾次沉浮。在一次次的高潮和低谷的交替中,不可否認的是,AI無論是在理論還是實踐中都取得了長足的進步。尤其是近期以深度學(xué)習(xí)為代表的AI技術(shù)取得了突破性的進展,在計算機視覺、機器學(xué)習(xí)、自然語言處理、機器人技術(shù)方面取得了巨大的進步,深刻改變了我們的生活。在這次變革中,實驗室的成果很快就可以進入工業(yè)界,這在以往的技術(shù)發(fā)展史上是非常罕見的。2016年5月國家發(fā)展改革委員會等四部門聯(lián)合下發(fā)《互聯(lián)網(wǎng)+AI三年行動實施方案》,李克強總理的政府報告中也提到了AI產(chǎn)業(yè)發(fā)展,中國科學(xué)技術(shù)部“科技創(chuàng)新2030重大項目”將增加“AI2.0”,AI已經(jīng)上升為國家戰(zhàn)略。面對AI的熱潮,我們應(yīng)該如何理解現(xiàn)狀?如何看待其進步?又如何理解其功能和限制?本文將從AI的核心理論基礎(chǔ),當前存在的一些問題以及未來可能發(fā)展的方向等諸多方面對AI做介紹。
一、 AI的核心基礎(chǔ)
1.專用AI算法
深度學(xué)習(xí)本質(zhì)上是一個自主學(xué)習(xí)系統(tǒng),是從傳統(tǒng)的模式識別衍生而來。通過大量數(shù)據(jù)進行訓(xùn)練,深度學(xué)習(xí)網(wǎng)絡(luò)會自動找到這些數(shù)據(jù)的模式,然后通過這些模式來對未知數(shù)據(jù)進行預(yù)測。以Kaggle大賽中的貓狗分類為例,具體步驟是:(1)讓計算機“看”數(shù)以萬計包含貓和狗的圖像;(2)程序通過對圖像數(shù)據(jù)進行分類和聚類(例如:邊緣、形狀、顏色、形狀之間的距離等)來建立模式,足夠多的的模式可以得到最終的預(yù)測模型;(3)運行程序通過預(yù)測模型來查看新的圖像集,之后與預(yù)測模型比對,確定圖像中是貓還是狗。
深度學(xué)習(xí)算法通過模擬我們大腦神經(jīng)元網(wǎng)絡(luò)的人工神經(jīng)網(wǎng)絡(luò)來實現(xiàn)類似人類大腦的功能。算法在運行中會執(zhí)行各種循環(huán),通過縮小模式與實際的差距來改進每個循環(huán)的預(yù)測,最終建立一個預(yù)測模型。
安防行業(yè)中人臉識別應(yīng)用是一個很好的關(guān)于深度學(xué)習(xí)的工業(yè)應(yīng)用案例。人臉識別算法通過大量帶有標簽的人臉數(shù)據(jù)來訓(xùn)練模型,算法會自動識別出人臉的關(guān)鍵點。通過調(diào)用算法,設(shè)備會捕獲到多個關(guān)鍵點,這些關(guān)鍵點會送到深度學(xué)習(xí)模型中,通過內(nèi)置引擎和執(zhí)行預(yù)測模型判斷是誰。
強化學(xué)習(xí)也是一種自主學(xué)習(xí)系統(tǒng),但它主要是通過反復(fù)試驗來學(xué)習(xí)的。通過有限次執(zhí)行行動以得到最大化獎勵從而確定答案,換句話說,它是通過實踐來學(xué)習(xí),從實踐中找到結(jié)果。這就好比小時候?qū)W習(xí)騎自行車,剛開始的時候會經(jīng)常摔倒,但隨著摔的次數(shù)多了,慢慢就掌握竅門了,這個學(xué)習(xí)的過程就是強化學(xué)習(xí)。當計算機使用強化學(xué)習(xí)時,它們會嘗試不同的行為,從反饋中學(xué)習(xí)該行為是否能夠得到更好的結(jié)果,然后將能得到好結(jié)果的行為記住,規(guī)范點說就是計算機在多次迭代中進行自主重新修正算法,直到能做出正確的判斷為止。
使用強化學(xué)習(xí)一個很好的例子是讓機器人學(xué)習(xí)走路。首先機器人向前邁出一大步然后跌倒,這一大步和摔倒是強化學(xué)習(xí)系統(tǒng)關(guān)注的響應(yīng)點。由于反饋是負面的,所以繼續(xù)調(diào)整,系統(tǒng)會根據(jù)多個負反饋進行調(diào)整,最終確定機器人應(yīng)該把步子邁小一點,不停地小,直到機器人走路不會摔倒為止。
深度學(xué)習(xí)和強化學(xué)習(xí)首先都是自主學(xué)習(xí)系統(tǒng)。它們之間的區(qū)別在于,深度學(xué)習(xí)是從訓(xùn)練集中學(xué)習(xí),然后將學(xué)習(xí)到的知識應(yīng)用于新數(shù)據(jù)集,這是一種靜態(tài)學(xué)習(xí)。而強化學(xué)習(xí)是通過連續(xù)的反饋來調(diào)整自身的動作以獲得理想結(jié)果,是一種不斷試錯的過程,這是動態(tài)學(xué)習(xí)。另外現(xiàn)階段投入市場應(yīng)用的深度學(xué)習(xí)算法和強化學(xué)習(xí)算法都屬于有監(jiān)督學(xué)習(xí),不同于無監(jiān)督學(xué)習(xí)在數(shù)據(jù)集中自動尋找規(guī)律,有監(jiān)督學(xué)習(xí)需要大量已標注的訓(xùn)練數(shù)據(jù)作為訓(xùn)練集,在訓(xùn)練集中尋找規(guī)律。
深度學(xué)習(xí)和強化學(xué)習(xí)都屬于專用AI算法,在面向特定任務(wù)(比如下圍棋、分類、檢測)時,由于任務(wù)單一、需求明確、應(yīng)用邊界清晰、領(lǐng)域知識豐富、模型相對簡單,形成了AI的單項突破,在單項測試中可以超過人類智能。AlphaGo在圍棋比賽中戰(zhàn)勝人類獲得冠軍,AI程序在大規(guī)模圖像識別和人臉識別中超過了人類水平,AI系統(tǒng)診斷皮膚癌達到專業(yè)醫(yī)生的水平。
2.算力
除了專用AI算法,近些年計算機硬件的發(fā)展構(gòu)成了AI發(fā)展的基礎(chǔ)。AI早期進入第一個發(fā)展低谷的原因之一正是因為計算機計算能力不足。深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練本質(zhì)就是矩陣運算,反向傳播尋找整個網(wǎng)絡(luò)的損失最小值,使得訓(xùn)練很容易并行化。使用英偉達的GPU可以大大加快深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度,越來越多傳統(tǒng)的信息廠商都在利用英偉達的GPU構(gòu)建GPU集群。Intel的Xeon芯片提供了強大的多核計算能力,而且可以在服務(wù)器上組成多路,以及通過多節(jié)點集群進行并行優(yōu)化計算。對于負載不是特別大的任務(wù)可以直接用cpu完成,目前Intel正在開發(fā)將cpu和FPGA計算能力整合的芯片。
專用的神經(jīng)網(wǎng)絡(luò)芯片發(fā)展迅速,主要有FPGA、DSP、ASIC、ARM擴展模塊等技術(shù)路線,具有速度快、帶寬高、功耗低等特點,主要面向移動和嵌入式系統(tǒng)。很多廠家在芯片里已經(jīng)固化的圖像處理、目標識別等基礎(chǔ)模型和算法,快速集成到嵌入式設(shè)備中,目前主要功能以人臉識別、照片分類、圖像處理、圖像風(fēng)格遷移、圖像超分辨率重建、車牌識別、智能安防、自動駕駛、無人機姿態(tài)保持與位置追蹤等領(lǐng)域為主。
3.數(shù)據(jù)
當前正處于數(shù)據(jù)爆發(fā)的時代。根據(jù)希捷科技贊助、國際數(shù)據(jù)公司(IDC)發(fā)布的白皮書《數(shù)據(jù)時代2025》預(yù)測:到2025年,全球數(shù)據(jù)圈將擴展至163ZB,相當于2016年所產(chǎn)生16.1ZB數(shù)據(jù)的十倍;屬于數(shù)據(jù)分析的全球數(shù)據(jù)總量將增長至原來的50倍,達到5.2ZB;而認知系統(tǒng)“觸及”的分析數(shù)據(jù)總量將增長至原來的100倍,達到1.4ZB。大量涌現(xiàn)的數(shù)據(jù)催生出了一系列全新的技術(shù),AI將數(shù)據(jù)分析從不常見的、追溯式的實踐轉(zhuǎn)變?yōu)閼?zhàn)略決策和行動的推動因素。
二、存在的一些問題
1.數(shù)據(jù)成本
前面提到過,在工業(yè)領(lǐng)域廣泛應(yīng)用深度學(xué)習(xí)網(wǎng)絡(luò)需要大量的已經(jīng)標注的數(shù)據(jù)進行訓(xùn)練才有可能達到預(yù)期的效果,這些訓(xùn)練數(shù)據(jù)的標注需要人為進行,這造成巨大的人力成本。雖然互聯(lián)網(wǎng)有著取之不盡的海量數(shù)據(jù),但是絕大部分都是未進行標注的數(shù)據(jù)。為了解決這個問題,可以從以下兩方面嘗試解決:
(1)無監(jiān)督學(xué)習(xí)
相對于監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí)能夠充分利用這些數(shù)據(jù),不需要花費大量的人力物力去標注訓(xùn)練數(shù)據(jù),這樣就大大減少了訓(xùn)練模型的成本。另一方面,目前的深度學(xué)習(xí)模型的訓(xùn)練需要使用大量的數(shù)據(jù)。
(2)小樣本學(xué)習(xí)
機器學(xué)習(xí)能力與人的學(xué)習(xí)能力相差甚遠,比如小孩只需要幾張貓的照片就能準確的識別貓,但是深度學(xué)習(xí)的模型需要幾百萬張圖像,目前很熱門的自動駕駛技術(shù),需要幾百萬公里才能訓(xùn)練到令人滿意的效果,但是人只需要幾千公里就可以成為老司機。事實上,小樣本學(xué)習(xí)更接近人的智能模型,小樣本學(xué)習(xí)能力的發(fā)展能夠?qū)I技術(shù)應(yīng)用到更多更廣泛的領(lǐng)域。小樣本學(xué)習(xí)研究的一個重大突破是三名分別來自麻省理工學(xué)院、紐約大學(xué)和多倫多大學(xué)的研究者在2015年提出的“Bayesian?Program?Learning”方法,并利用它解決?“看一眼就會寫字”的問題。
2.模型可解釋性
AI另一個難題就是機器學(xué)習(xí)模型的可解釋性和穩(wěn)定性。目前大部分機器學(xué)習(xí)模型都是“黑盒”模型,很難讓人理解。而且模型穩(wěn)定性也一直是個問題,例如給圖片加些白噪音,深度學(xué)習(xí)模型會給出令人大跌眼鏡的預(yù)測結(jié)果。
3.模型大小限制
目前的計算能力難以訓(xùn)練大型的深度學(xué)習(xí)模型,比如GB級的模型訓(xùn)練過程對帶寬要求很高。GPU比CPU更適合訓(xùn)練深度學(xué)習(xí)模型的原因之一是,相對于內(nèi)存來說顯存的帶寬更大。另外模型很大往往會過度擬合基準數(shù)據(jù),并不會從樣本中提取更抽象的特征,在實際應(yīng)用中,如果深度網(wǎng)絡(luò)有偏差將會帶來非常嚴重的后果。比如在訓(xùn)練自動駕駛的數(shù)據(jù)集中,不會有嬰兒坐在馬路中間。深度神經(jīng)網(wǎng)絡(luò)對標準的對抗性攻擊很敏感,這些攻擊會對圖像造成人類難以察覺的變化,但會改變神經(jīng)網(wǎng)絡(luò)對物體的認知。Alan Yuille說這些問題的背后都是組合爆炸導(dǎo)致的,真實世界的圖像利用組合觀點來看數(shù)量太大了,從一定程度上說是無限的。任何一個數(shù)據(jù)集,不管多大,都很難表達出現(xiàn)實的復(fù)雜程度。
4.泛化性能
從專用智能算法到通用智能算法是下一代AI發(fā)展的必然趨勢,也是研究與應(yīng)用領(lǐng)域需要挑戰(zhàn)的問題。通用智能被認為是AI皇冠上的明珠,從目標來看,通用智能意味著神經(jīng)網(wǎng)絡(luò)泛化能力的提高,為了解決這個問題,科研人員進行了各種努力。從正則化技術(shù)到dropout技術(shù)再到BN技術(shù),這些技巧從一定程度上減緩了神經(jīng)網(wǎng)絡(luò)過度擬合的問題,提高了泛化能力。但是這些只是技巧,并不能從根本上解決問題。目前解決這個問題的方法是遷移學(xué)習(xí),遷移學(xué)習(xí)是將一個場景中學(xué)到的知識遷移到另一個場景中。比如我們可以將利用貓和狗圖像訓(xùn)練的分類模型遷移到其他相似的任務(wù),用來分別鷹和布谷鳥。利用遷移學(xué)習(xí),在一個模型訓(xùn)練任務(wù)中針對某種類型數(shù)據(jù)獲得的關(guān)系也可以輕松地應(yīng)用于同一領(lǐng)域的不同問題。遷移學(xué)習(xí)一定程度上緩解了標記數(shù)據(jù)的壓力,對于我們接近通用AI邁進了一步。
三、發(fā)展趨勢
雖然深度學(xué)習(xí)在某些方面還是存在一些不足,但是目前科學(xué)界已經(jīng)有了一些可喜的突破,并且基于深度學(xué)習(xí)的AI深刻地改變了人們的生活,未來AI將會更加快速地發(fā)展,本文認為有以下四個發(fā)展趨勢:
1.AI芯片加速發(fā)展
即使是快和先進的CPU也無法提高AI模型的速度,在AI模型運行的時候,需要額外的硬件來進行復(fù)雜的數(shù)學(xué)計算。尤其是前端設(shè)備,在安防行業(yè)中的應(yīng)用,需要體積更小,功能更加強大的嵌入式芯片來運行性能更好的算法,用于實時跟蹤、面部識別等應(yīng)用。
2.AI邊緣計算以及物聯(lián)網(wǎng)融合開發(fā)
目前AI在邊緣側(cè)不斷發(fā)展是駕馭數(shù)據(jù)洪流的關(guān)鍵之一,也是物聯(lián)網(wǎng)未來發(fā)展的重要趨勢。隨著AI技術(shù)如火如荼地發(fā)展,海量數(shù)據(jù)需要快速有效的提取和分析,這大大加強了對于邊緣計算的需求。未來AI技術(shù)、邊緣計算和物聯(lián)網(wǎng)將更加密切進行融合發(fā)展,尤其在安防行業(yè)視頻監(jiān)控領(lǐng)域的應(yīng)用。
(1)神經(jīng)網(wǎng)絡(luò)之間的互操作性
神經(jīng)網(wǎng)絡(luò)的訓(xùn)練是基于框架的,一旦模型在特定的框架中完成了訓(xùn)練和評估就很難移植到另一個框架,這阻礙了AI的發(fā)展,未來神經(jīng)網(wǎng)絡(luò)之間的互操作性將成為AI行業(yè)的重要技術(shù)。
(2)自動化AI將會更加突出
從根本上改變AI解決方案的一個趨勢是自動化AI,它使業(yè)務(wù)分析師和開發(fā)人員能夠高效發(fā)掘出可以解決復(fù)雜場景的機器學(xué)習(xí)模型,而無需經(jīng)過機器學(xué)習(xí)模型的典型培訓(xùn),業(yè)務(wù)分析師可以更加專注于業(yè)務(wù)問題。
四、結(jié)語
AI技術(shù)一直處于計算機技術(shù)的前沿,其研究的理論和發(fā)展在很大程度上將決定計算機技術(shù)的發(fā)展方向。目前很多AI的研究成果深刻地改變著人們的生活,將來,AI的發(fā)展將會更加快速,會給人們的生活工作和教育帶來更大的影響。