機(jī)器學(xué)習(xí)是人工智能的核心機(jī)器學(xué)習(xí)的核心則是算法

時(shí)間：2020-05-15 07:15:01

關(guān)鍵字：人工智能機(jī)器學(xué)習(xí) 核心技術(shù) 開(kāi)發(fā)者

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] “中國(guó)有多少數(shù)學(xué)家投入到人工智能的基礎(chǔ)算法研究中？” 今年4月底，中國(guó)工程院院士徐匡迪等多位院士的發(fā)聲，直擊我國(guó)在算法這一核心技術(shù)上的缺失，引發(fā)業(yè)界共鳴，被稱為“徐匡迪之問(wèn)”。

“中國(guó)有多少數(shù)學(xué)家投入到人工智能的基礎(chǔ)算法研究中？”

今年4月底，中國(guó)工程院院士徐匡迪等多位院士的發(fā)聲，直擊我國(guó)在算法這一核心技術(shù)上的缺失，引發(fā)業(yè)界共鳴，被稱為“徐匡迪之問(wèn)”。

由此，“依靠開(kāi)源代碼和算法是否足夠支撐人工智能產(chǎn)業(yè)發(fā)展？”、“為什么要有自己的底層框架和核心算法？”等一系列問(wèn)題，成為行業(yè)熱議的話題。

事實(shí)上，除了核心算法之外，對(duì)底層框架的忽視，也成為影響我國(guó)人工智能發(fā)展的重要因素，甚至比“缺芯少魂”、“卡脖子”問(wèn)題更危險(xiǎn)！

然而，想要理清其中的緣由，就需要從讀懂機(jī)器學(xué)習(xí)開(kāi)始。

什么是機(jī)器學(xué)習(xí)？

眾所周知，AI的根本目的就是讓計(jì)算機(jī)模擬人類的行為和思維，以實(shí)現(xiàn)解放人力，提升效率，降低成本。其中，機(jī)器學(xué)習(xí)（Machine Learning）則是AI的智慧源泉。

從學(xué)術(shù)上來(lái)說(shuō)，機(jī)器學(xué)習(xí)涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多領(lǐng)域交叉的課題和技術(shù)。

從廣義上來(lái)說(shuō)，機(jī)器學(xué)習(xí)就是賦予計(jì)算機(jī)學(xué)習(xí)能力，并實(shí)現(xiàn)模仿人類的一種方法。

從技術(shù)應(yīng)用上來(lái)說(shuō)，機(jī)器學(xué)習(xí)是利用大量數(shù)據(jù)，訓(xùn)練出專用的算法模型，然后通過(guò)該模型實(shí)現(xiàn)類似人的預(yù)測(cè)、推理，從而獲取決策的方法。

從層級(jí)上來(lái)說(shuō)，機(jī)器學(xué)習(xí)位于AI的技術(shù)層，與其他技術(shù)的相融合，構(gòu)成了計(jì)算機(jī)視覺(jué)、智能語(yǔ)音、模式識(shí)別、數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)習(xí)等AI核心技術(shù)，并在應(yīng)用層得以體現(xiàn)。

從AI發(fā)展來(lái)看，幾乎所有核心技術(shù)和應(yīng)用場(chǎng)景的背后，都離不開(kāi)機(jī)器學(xué)習(xí)所賦予的學(xué)習(xí)能力，也就是智能。

總之，機(jī)器學(xué)習(xí)既是人工智能的核心，也是計(jì)算機(jī)獲得學(xué)習(xí)能力和智力的方法或途徑。

而機(jī)器學(xué)習(xí)的核心則是算法。

深度學(xué)習(xí)算法與底層框架

作為AI大三元素（數(shù)據(jù)、算力、算法），目前主流的算法主要面向機(jī)器學(xué)習(xí)領(lǐng)域。因此，機(jī)器學(xué)習(xí)也可以理解為用于訓(xùn)練和推理的算法合集。

目前，機(jī)器學(xué)習(xí)算法可以分為傳統(tǒng)算法和深度學(xué)習(xí)（Deep Learning）算法兩大類。

深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中一個(gè)新興的研究方向，也是一個(gè)復(fù)雜的機(jī)器學(xué)習(xí)算法。深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究，建立模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)，以模仿人腦的機(jī)制來(lái)解釋數(shù)據(jù)，強(qiáng)調(diào)模型結(jié)構(gòu)的深度和明確特征學(xué)習(xí)的重要性。

因此，深度學(xué)習(xí)使計(jì)算機(jī)實(shí)現(xiàn)模仿視聽(tīng)和思考等人類的活動(dòng)，解決了大量復(fù)雜的模式識(shí)別難題，從而推動(dòng)計(jì)算機(jī)視覺(jué)、智能語(yǔ)音等復(fù)雜AI基礎(chǔ)技術(shù)的落地。

可以說(shuō)，深度學(xué)習(xí)算法決定了未來(lái)AI的發(fā)展趨勢(shì)，乃是兵家必爭(zhēng)之地。

現(xiàn)在，全球AI領(lǐng)域，深度學(xué)習(xí)已經(jīng)超越傳統(tǒng)機(jī)器學(xué)習(xí)，成為主流算法。但是，機(jī)器學(xué)習(xí)仍未被取代，兩者呈現(xiàn)互補(bǔ)的態(tài)勢(shì)。隨著深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)算法的結(jié)合，不僅降低了算法訓(xùn)練的門(mén)檻，更衍生出大量熱門(mén)算法以及相應(yīng)的底層構(gòu)架。

與依賴于芯片的算力不同，算法由于開(kāi)源代碼、自動(dòng)化工具等助力，門(mén)檻相對(duì)降低不少，因而成為初創(chuàng)公司不錯(cuò)的切入點(diǎn)?，F(xiàn)在，大多AI企業(yè)基本都是圍繞算法及相應(yīng)的應(yīng)用場(chǎng)景做文章，在國(guó)內(nèi)尤為普遍。

然而，這些基于開(kāi)源代碼和自動(dòng)化工具的算法往往過(guò)于通用和初級(jí)，僅僅依托國(guó)內(nèi)海量數(shù)據(jù)儲(chǔ)備和豐富的應(yīng)用場(chǎng)景的優(yōu)勢(shì)，實(shí)現(xiàn)最基本的功能而已。真正核心和關(guān)鍵算法仍然掌握在國(guó)外大廠手中，核心競(jìng)爭(zhēng)力明顯不足。

而且，不僅是核心算法，深度學(xué)習(xí)的底層框架也同樣來(lái)自于國(guó)外廠商。

底層框架，一般被稱作為開(kāi)源框架或算法訓(xùn)練平臺(tái)。通俗來(lái)說(shuō)，就是AI工具包，其作用就是用以訓(xùn)練算法模型的平臺(tái)。

如果將算法比作“子彈”的話，底層框架就是“軍工廠”，重要性不言而喻。

僅僅是算法的缺失，可以通過(guò)企業(yè)、開(kāi)發(fā)者及整個(gè)行業(yè)的共同努力來(lái)彌補(bǔ)，但連工具都被“卡脖子”的話，顯然將大大制約我國(guó)深度學(xué)習(xí)，乃至整個(gè)AI產(chǎn)業(yè)的發(fā)展。

外來(lái)的和尚好念經(jīng)

目前，主流的深度學(xué)習(xí)底層框架雖然大多已經(jīng)開(kāi)源，但基本都來(lái)自于美國(guó)科技巨頭及大學(xué)相關(guān)實(shí)驗(yàn)室，例如TensorFlow（谷歌）、PyTorch（Facebook）、MXNet（亞馬遜）、CNTK（微軟）、Deeplearning4j（美國(guó)AI初創(chuàng)公司Skymind）、Theano（蒙特利爾理工學(xué)院）、Caffe（加州大學(xué)伯克利/賈揚(yáng)清開(kāi)發(fā)）、Keras（谷歌工程師Fran?oisChollet開(kāi)發(fā)）等等。

其中， TensorFlow和PyTorch應(yīng)用最為廣泛，全球AI企業(yè)都將其視為重要的工具包。據(jù)TensorFlow網(wǎng)站顯示，京東、中國(guó)移動(dòng)、美團(tuán)、搜狗等中國(guó)企業(yè)都在使用該框架，用于深度學(xué)習(xí)的應(yīng)用和開(kāi)發(fā)。

任何企業(yè)和開(kāi)發(fā)者都可以將數(shù)據(jù)饋入其中，并開(kāi)始訓(xùn)練自己的算法模型，無(wú)需重頭開(kāi)始自行開(kāi)發(fā)底層框架和開(kāi)發(fā)平臺(tái)，所謂 “站在巨人的肩膀”。

谷歌、Facebook、亞馬遜、微軟也在不遺余力地投入，對(duì)這些底層框架進(jìn)行維護(hù)、升級(jí)和推廣，以確保其受到全球開(kāi)發(fā)者的歡迎。根本目的就是建立統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范，進(jìn)而形成完整的生態(tài)。最簡(jiǎn)單的例子就是谷歌的安卓操作系統(tǒng)，雖為開(kāi)源，但也形成了技術(shù)壁壘，讓其他廠商難以逾越。

同時(shí)，大量企業(yè)和開(kāi)發(fā)者也在為這些開(kāi)源構(gòu)架默默地做著貢獻(xiàn)，從而推動(dòng)其不斷壯大。從另一個(gè)層面來(lái)說(shuō)，盡管底層框架均為開(kāi)源、免費(fèi)，但獲得全球開(kāi)發(fā)者助力的同時(shí)，也省去了建立國(guó)際性開(kāi)發(fā)團(tuán)隊(duì)的巨額成本。

其實(shí)，國(guó)內(nèi)巨頭已經(jīng)意識(shí)到了這個(gè)問(wèn)題。BAT、華為、商湯、曠視、360以及浪潮等廠商都已經(jīng)推出了各自的機(jī)器學(xué)習(xí)底層框架。

尤其是百度飛槳（Paddle Paddle）自2016年開(kāi)源起，一直在不斷升級(jí)和推廣，以吸引更多的企業(yè)和開(kāi)發(fā)者的關(guān)注。2017年，騰訊Angel、360 Xlearning先后宣布開(kāi)源。2018年年底，阿里x-deeplearning也正式開(kāi)源。今年8月，華為推出了MindSpore深度學(xué)習(xí)框架，并將在2020年第一季度開(kāi)源。此外，包括商湯、曠視、浪潮等廠商雖然已經(jīng)擁有自己的底層構(gòu)架，但遺憾的是并沒(méi)有開(kāi)源。

最近，小米宣布語(yǔ)音識(shí)別開(kāi)源工具Kaldi 之父DanielPovey將出任語(yǔ)音首席科學(xué)家，很可能會(huì)加大相關(guān)底層構(gòu)架的研發(fā)。

盡管中國(guó)廠商已經(jīng)擁有了自研底層框架的實(shí)力，但在先入為主的國(guó)外開(kāi)源構(gòu)架面前，不僅用戶量不足，而且缺乏貢獻(xiàn)者，更有過(guò)于封閉的問(wèn)題，因此底層構(gòu)架的國(guó)產(chǎn)化可謂路漫漫。

如何突圍？

隨著國(guó)內(nèi)自研AI芯片成為全新的風(fēng)潮，讓人看到了突破芯片“卡脖子”，實(shí)現(xiàn)“彎道超車”的可能。

即便如此，現(xiàn)在中國(guó)AI基礎(chǔ)研究和基礎(chǔ)設(shè)施仍然相當(dāng)薄弱，包括硬件在內(nèi)的大量核心技術(shù)掌控在美國(guó)手中，更隨時(shí)面臨“技術(shù)封鎖”和“斷供”的風(fēng)險(xiǎn)。

同樣的情況也發(fā)生在深度學(xué)習(xí)領(lǐng)域，核心算法和底層構(gòu)架的缺失，一旦風(fēng)險(xiǎn)爆發(fā)，將對(duì)中國(guó)AI發(fā)展帶來(lái)致命影響。

從國(guó)外廠商在AI領(lǐng)域的布局來(lái)看，無(wú)論是云計(jì)算、芯片，還是算法和底層框架，均以構(gòu)建自己的生態(tài)為根本目的，從而建立起牢不可破的“護(hù)城河”。

好在，阿里、百度、華為等國(guó)內(nèi)巨頭已經(jīng)從各個(gè)角度開(kāi)展布局，阿里平頭哥“含光800”、華為麒麟系列芯片、鴻蒙操作系統(tǒng)以及百度飛槳等都是典型的代表。其中，今年7月，百度宣布飛槳與華為麒麟展開(kāi)合作，芯片與底層構(gòu)架的聯(lián)手，無(wú)疑將共同推動(dòng)中國(guó)深度學(xué)習(xí)和AI產(chǎn)業(yè)的落地和發(fā)展。相信這也是建立中國(guó)力量生態(tài)圈最好范例。

此外，建立和推動(dòng)開(kāi)源文化，也是擺在中國(guó)企業(yè)面前的老生常談的問(wèn)題。唯有擁抱開(kāi)放、共享，才能真正推動(dòng)中國(guó)核心技術(shù)，尤其是AI技術(shù)的快速進(jìn)步和發(fā)展，從而突破“卡脖子”封鎖。

目前，國(guó)內(nèi)深度學(xué)習(xí)廠商主要分為云計(jì)算平臺(tái)、AI初創(chuàng)企業(yè)、傳統(tǒng)計(jì)算廠商以及大數(shù)據(jù)企業(yè)多個(gè)陣營(yíng)。其中，云計(jì)算平臺(tái)主要是BAT、華為、京東等互聯(lián)網(wǎng)巨頭為首；AI初創(chuàng)企業(yè)主要有第四范式、商湯、曠視、寒武紀(jì)等；浪潮、中科曙光等則發(fā)揮自身計(jì)算優(yōu)勢(shì)，占有一席之地；星環(huán)科技、美林?jǐn)?shù)據(jù)、九章云極等大數(shù)據(jù)企業(yè)擁有數(shù)據(jù)挖掘的優(yōu)勢(shì)，也成為生態(tài)中不可獲取的力量。

由此可知，除了AI本身之外，深度學(xué)習(xí)、機(jī)器學(xué)習(xí)與云、計(jì)算、數(shù)據(jù)等關(guān)鍵技術(shù)密不可分，這也恰恰證實(shí)了國(guó)內(nèi)海量數(shù)據(jù)儲(chǔ)備和互聯(lián)網(wǎng)基礎(chǔ)設(shè)施建設(shè)對(duì)AI行業(yè)起到的推動(dòng)作用。然而，正如上文所述，唯有掌控核心算法和底層框架，擁有基礎(chǔ)設(shè)施和核心技術(shù)的自研能力，才能真正主導(dǎo)深度學(xué)習(xí)及機(jī)器學(xué)習(xí)行業(yè)。

總之，就連機(jī)器學(xué)習(xí)、深度學(xué)習(xí)這樣的AI工具包都一直掌控在美國(guó)手中，無(wú)疑比芯片、操作系統(tǒng)等核心技術(shù)的“卡脖子”問(wèn)題更危險(xiǎn)！