如何看待人工智能未來十年的發(fā)展？

時間：2020-08-26 09:14:34

關(guān)鍵字：人工智能

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]蘇寧金融研究院2020年是不尋常的一年，全球的健康、貿(mào)易、經(jīng)濟、文化、政治和科技領(lǐng)域，無不發(fā)生著深刻的變化。筆者所在的科技領(lǐng)域，也恰逢現(xiàn)代人工智能（簡稱AI）發(fā)展10周年。前10年，人工智能技術(shù)得到了長足的發(fā)展，但也留下許多問題有待解決。那么，未來AI技術(shù)將會如何發(fā)展呢？本文將結(jié)...

本文來源：蘇寧金融研究院

2020年是不尋常的一年，全球的健康、貿(mào)易、經(jīng)濟、文化、政治和科技領(lǐng)域，無不發(fā)生著深刻的變化。筆者所在的科技領(lǐng)域，也恰逢現(xiàn)代人工智能（簡稱AI）發(fā)展10周年。前10年，人工智能技術(shù)得到了長足的發(fā)展，但也留下許多問題有待解決。那么，未來AI技術(shù)將會如何發(fā)展呢？本文將結(jié)合學(xué)術(shù)界、工業(yè)界的研究成果，以及筆者個人研究見解，從算力、數(shù)據(jù)、算法、工程化4個維度，與讀者一起探索和展望AI發(fā)展的未來。

數(shù)據(jù)

我們首先分析數(shù)據(jù)的發(fā)展趨勢。數(shù)據(jù)對人工智能，猶如食材對美味菜肴，過去10年，數(shù)據(jù)的獲取無論是數(shù)量，還是質(zhì)量，又或者是數(shù)據(jù)的種類，均增長顯著，支撐著AI技術(shù)的發(fā)展。未來，數(shù)據(jù)層面的發(fā)展會有哪些趨勢呢，我們來看一組分析數(shù)據(jù)。

首先，世界互聯(lián)網(wǎng)用戶的基數(shù)已達(dá)到十億量級，隨著物聯(lián)網(wǎng)、5G技術(shù)的進(jìn)一步發(fā)展，會帶來更多數(shù)據(jù)源和傳輸層面的能力提升，因此可以預(yù)見的是，數(shù)據(jù)的總量將繼續(xù)快速發(fā)展，且增速加快。參考IDC的數(shù)據(jù)報告，數(shù)據(jù)總量預(yù)計將從2018年的33ZB（1ZB=106GB），增長到2025年的175ZB。

其次，數(shù)據(jù)的存儲位置，業(yè)界預(yù)測仍將以集中存儲為主，且數(shù)據(jù)利用公有云存儲的比例將逐年提高。

以上對于未來數(shù)據(jù)的趨勢，可以總結(jié)為：數(shù)量持續(xù)增長；云端集中存儲為主；公有云滲透率持續(xù)增長。站在AI技術(shù)的角度，可以預(yù)期數(shù)據(jù)量的持續(xù)供給是有保證的。

另一個方面，AI技術(shù)需要的不僅僅是原始數(shù)據(jù)，很多還需要標(biāo)注數(shù)據(jù)。標(biāo)注數(shù)據(jù)可分為自動標(biāo)注、半自動標(biāo)注、人工標(biāo)注3個類別。

那么，標(biāo)注數(shù)據(jù)未來的趨勢會是怎樣的？

我們可從標(biāo)注數(shù)據(jù)工具市場的趨勢窺探一二?？梢钥吹?，人工標(biāo)注數(shù)據(jù)在未來的5-10年內(nèi)，大概率依然是標(biāo)注數(shù)據(jù)的主要來源，占比超過75%。

通過以上數(shù)據(jù)維度的分析與預(yù)測，我們可以得到的判斷是，數(shù)據(jù)量本身不會限制AI技術(shù)，但是人工標(biāo)注的成本與規(guī)模很可能成為限制AI技術(shù)發(fā)展的因素，這將倒逼AI技術(shù)從算法和技術(shù)本身有所突破，有效解決對數(shù)據(jù)特別是人工標(biāo)注數(shù)據(jù)的依賴。

算力

我們再來看看算力。算力對于AI技術(shù)，如同廚房灶臺對于美味佳肴一樣，本質(zhì)是一種基礎(chǔ)設(shè)施的支撐。

算力指的是實現(xiàn)AI系統(tǒng)所需要的硬件計算能力。半導(dǎo)體計算類芯片的發(fā)展是AI算力的根本源動力，好消息是，雖然半導(dǎo)體行業(yè)發(fā)展有起有落，并一直伴隨著是否可持續(xù)性的懷疑，但是半導(dǎo)體行業(yè)著名的“摩爾定律”已經(jīng)經(jīng)受住了120年考驗，相信未來5-10年依然能夠平穩(wěn)發(fā)展。

不過，值得注意的是，摩爾定律在計算芯片領(lǐng)域依然維持，很大原因是因為圖形處理器（GPU）的迅速發(fā)展，彌補了通用處理器（CPU）發(fā)展的趨緩，可以看出GPU的晶體管數(shù)量增長已超過CPU，CPU晶體管開始落后于摩爾定律。

當(dāng)然，半導(dǎo)體晶體管數(shù)量反映整體趨勢可以，但還不夠準(zhǔn)確地反映算力發(fā)展情況。對于AI系統(tǒng)來說，浮點運算和內(nèi)存是更直接的算力指標(biāo)，下面具體對比一下GPU和CPU這2方面的性能?？梢钥闯觯珿PU無論是在計算能力還是在內(nèi)存訪問速度上，近10年發(fā)展遠(yuǎn)超CPU，很好的填補了CPU的性能發(fā)展瓶頸問題。

另一方面，依照前瞻產(chǎn)業(yè)研究院梳理的數(shù)據(jù)，就2019年的AI芯片收入規(guī)模來看，GPU芯片擁有27%左右的份額，CPU芯片僅占17%的份額。可以看到，GPU已成為由深度學(xué)習(xí)技術(shù)為代表的人工智能領(lǐng)域的硬件計算標(biāo)準(zhǔn)配置，形成的原因也十分簡單，現(xiàn)有的AI算法，尤其在模型訓(xùn)練階段，對算力的需求持續(xù)增加，而GPU算力恰好比CPU要強很多，同時是一種與AI算法模型本身耦合度很低的一種通用計算設(shè)備。

除了GPU與CPU，其他計算設(shè)備如ASIC、FGPA等新興AI芯片也在發(fā)展，值得行業(yè)關(guān)注。鑒于未來數(shù)據(jù)大概率仍在云端存儲的情況下，這些芯片能否在提高性能效率的同時，保證通用性，且可以被云廠商規(guī)模性部署，獲得軟件生態(tài)的支持，有待進(jìn)一步觀察。

算法

現(xiàn)在我們來分析算法。AI算法對于人工智能，就是廚師與美味佳肴的關(guān)系。過去10年AI的發(fā)展，數(shù)據(jù)和算力都起到了很好的輔助作用，但是不可否認(rèn)的是，基于深度學(xué)習(xí)的算法結(jié)合其應(yīng)用取得的性能突破，是AI技術(shù)在2020年取得里程碑式發(fā)展階段的重要原因。

那么，AI算法在未來的發(fā)展趨勢是什么呢？

這個問題是學(xué)術(shù)界、工業(yè)界集中討論的核心問題之一，一個普遍的共識是，延續(xù)過去10年AI技術(shù)的發(fā)展，得益于深度學(xué)習(xí)，但是此路徑發(fā)展帶來的算力問題，較難持續(xù)。下面我們看一組數(shù)據(jù)：

1. 根據(jù)OpenAI最新的測算，訓(xùn)練一個大型AI模型的算力，從2012年開始計算已經(jīng)翻了30萬倍，即年平均增長11.5倍，而算力的硬件增長速率，即摩爾定律，只達(dá)到年平均增速1.4倍；另一方面，算法效率的進(jìn)步，年平均節(jié)省約1.7倍的算力。這意味著，隨著我們繼續(xù)追求算法性能的不斷提升，每年平均有約8.5倍的算力赤字，令人擔(dān)憂。一個實際的例子為今年最新發(fā)布的自然語義預(yù)訓(xùn)練模型GPT-3，僅訓(xùn)練成本已達(dá)到約1300萬美元，這種方式是否可持續(xù)，值得我們思考。

2. MIT最新研究表明，對于一個過參數(shù)化（即參數(shù)數(shù)量比訓(xùn)練數(shù)據(jù)樣本多）的AI模型，滿足一個理論上限公式：

上述公式表明，其算力需求在理想情況下，大于等于性能需求的4次方，從2012年至今的模型表現(xiàn)在ImageNet數(shù)據(jù)集上分析，現(xiàn)實情況是在9次方的水平上下浮動，意味著現(xiàn)有的算法研究和實現(xiàn)方法，在效率上有很大的優(yōu)化空間。

3. 按以上數(shù)據(jù)測算，人工智能算法在圖像分類任務(wù)（ImageNet）達(dá)到1%的錯誤率預(yù)計要花費1億萬億（10的20次方）美元，成本不可承受。

結(jié)合前文所述的數(shù)據(jù)和算力2個維度的分析，相信讀者可以發(fā)現(xiàn)，未來標(biāo)注數(shù)據(jù)成本、算力成本的代價之高，意味著數(shù)據(jù)紅利與算力紅利正在逐漸消退，人工智能技術(shù)發(fā)展的核心驅(qū)動力未來將主要依靠算法層面的突破與創(chuàng)新。就目前最新的學(xué)術(shù)與工業(yè)界研究成果來看，筆者認(rèn)為AI算法在未來的發(fā)展，可能具有以下特點：

（1）先驗知識表示與深度學(xué)習(xí)的結(jié)合

縱觀70多年的人工智能發(fā)展史，符號主義、連接主義、行為主義是人工智能發(fā)展初期形成的3個學(xué)術(shù)流派。如今，以深度學(xué)習(xí)為典型代表的連接主義事實成為過去10年的發(fā)展主流，行為主義則在強化學(xué)習(xí)領(lǐng)域獲得重大突破，圍棋大腦AlphaGo的成就已家喻戶曉。

值得注意的是，原本獨立發(fā)展的3個學(xué)派，正在開始以深度學(xué)習(xí)為主線的技術(shù)融合，比如在2013年，強化學(xué)習(xí)領(lǐng)域發(fā)明了DQN網(wǎng)絡(luò)，其中采用了神經(jīng)網(wǎng)絡(luò)，開啟了一個新的研究領(lǐng)域稱作深度強化學(xué)習(xí)（Deep Reinforcement Learning）。

那么，符號主義類算法是否也會和深度學(xué)習(xí)進(jìn)行融合呢？一個熱門候選是圖網(wǎng)絡(luò)（Graph Network）技術(shù)，這項技術(shù)正在與深度學(xué)習(xí)技術(shù)相融合，形成深度圖網(wǎng)絡(luò)研究領(lǐng)域。圖網(wǎng)絡(luò)的數(shù)據(jù)結(jié)構(gòu)易于表達(dá)人類的先驗知識，且是一種更加通用、推理能力更強(又稱歸納偏置)的信息表達(dá)方法，這或許是可同時解決深度學(xué)習(xí)模型數(shù)據(jù)饑渴、推理能力不足以及輸出結(jié)果可解釋性不足的一把鑰匙。

（2）模型結(jié)構(gòu)借鑒生物科學(xué)

深度學(xué)習(xí)模型的模型結(jié)構(gòu)由前反饋和反向傳播構(gòu)成，與生物神經(jīng)網(wǎng)絡(luò)相比，模型的結(jié)構(gòu)過于簡單。深度學(xué)習(xí)模型結(jié)構(gòu)是否可以從生物科學(xué)、生物神經(jīng)科學(xué)的進(jìn)步和發(fā)現(xiàn)中吸取靈感，從而發(fā)現(xiàn)更加優(yōu)秀的模型是一個值得關(guān)注的領(lǐng)域。另一個方面，如何給深度學(xué)習(xí)模型加入不確定性的參數(shù)建模，使其更好的處理隨機不確定性，也是一個可能產(chǎn)生突破的領(lǐng)域。

（3）數(shù)據(jù)生成

AI模型訓(xùn)練依賴數(shù)據(jù)，這一點目前來看不是問題，但是AI模型訓(xùn)練依賴人工標(biāo)注數(shù)據(jù)，是一個頭痛的問題。利用算法有效解決或者大幅降低模型訓(xùn)練對于人工標(biāo)注數(shù)據(jù)的依賴，是一個熱點研究領(lǐng)域。實際上，在人工智能技術(shù)發(fā)展過程中一直若隱若現(xiàn)的美國國防部高級研究計劃局（DARPA），已經(jīng)將此領(lǐng)域定為其AI3.0發(fā)展計劃目標(biāo)之一，可見其重要程度。

（4）模型自評估

現(xiàn)有的AI算法，無論是機器學(xué)習(xí)算法，還是深度學(xué)習(xí)算法，其研發(fā)模式本質(zhì)上是通過訓(xùn)練閉環(huán)（closed loop）、推理開環(huán)（open loop）的方式進(jìn)行的。是否可以通過設(shè)計模型自評估，在推理環(huán)節(jié)將開環(huán)系統(tǒng)進(jìn)化成閉環(huán)系統(tǒng)也是一個值得研究的領(lǐng)域。在通信領(lǐng)域，控制領(lǐng)域等其他行業(yè)領(lǐng)域的大量算法實踐表明，采用閉環(huán)算法的系統(tǒng)在性能和輸出可預(yù)測性上，通常均比開環(huán)系統(tǒng)優(yōu)秀，且閉環(huán)系統(tǒng)可大幅降低性能斷崖式衰減的可能性。閉環(huán)系統(tǒng)的這些特性，提供了對AI系統(tǒng)提高魯棒性和可對抗性的一種思路和方法。

工程化

上文已經(jīng)對人工智能數(shù)據(jù)、算力、算法層面進(jìn)行了梳理和分析，最后我們看看工程化。工程化對于人工智能，如同廚具對于美味佳肴一樣，是將數(shù)據(jù)、算力、算法結(jié)合到一起的媒介。

工程化的本質(zhì)作用是提升效率，即最大化利用資源，最小化減少信息之間的轉(zhuǎn)換損失。打一個簡單的比喻，要做出美味佳肴，食材、廚房灶臺、廚師都有，但是唯獨沒有合適的廚具，那么廚師既無法發(fā)揮廚藝（算法），又無法處理食材（數(shù)據(jù)），也無法使用廚房灶臺的水電氣（算力）。因此，可以預(yù)見，工程化未來的發(fā)展，是將上文提到的算力與算法性能關(guān)系，從現(xiàn)在的9次方，逼近到理論上限4次方的重要手段之一。

過去10年，AI工程化發(fā)展，已形成一個明晰的工具鏈體系，近期也伴隨著一些值得關(guān)注的變化，筆者將一些較為明顯的趨勢，匯總?cè)缦拢?

總結(jié)來說，AI工程化正在形成從用戶端到云端的，以Python為編程語言的一整套工具鏈，其3個重要的特點為：遠(yuǎn)程編程與調(diào)試，深度學(xué)習(xí)與機器學(xué)習(xí)的GPU加速支持，以及模型訓(xùn)練與推理工具鏈的解耦。與此同時，產(chǎn)業(yè)鏈上游廠商對開源社區(qū)的大量投入，將為中下游企業(yè)和個人帶來工具鏈的技術(shù)紅利，降低其研發(fā)門檻和成本，筆者認(rèn)為微軟、臉書、英偉達(dá)3家上游廠商主推的開源工具鏈尤其值得關(guān)注。

結(jié)語

對于人工智能技術(shù)過去10年發(fā)展取得的成就，有人歸因于數(shù)據(jù)，也有人歸因于算力。未來人工智能技術(shù)發(fā)展，筆者大膽預(yù)測，算法將是核心驅(qū)動力。同時，算法研發(fā)的實際效率，除了算法結(jié)構(gòu)本身，還取決于設(shè)計者對先進(jìn)工具鏈的掌握程度。

未來10年，科技界是否能用更少的數(shù)據(jù)，更經(jīng)濟的算力，獲得真正意義上的通用智能呢？我們拭目以待。

~END~

IOTE2021物聯(lián)網(wǎng)展正式啟動招商！

蘇州站：

2021年4月7-9日蘇州國際博覽中心

深圳站：

2021年8月

參展聯(lián)系：

陳江漢先生 18676385933（微信同號）

今日份需求已上線

1.求購智能門鎖方案

2.求購硅膠洗衣標(biāo)簽