機(jī)器學(xué)習(xí)是人工智能的核心 機(jī)器學(xué)習(xí)的核心則是算法
掃描二維碼
隨時(shí)隨地手機(jī)看文章
“中國(guó)有多少數(shù)學(xué)家投入到人工智能的基礎(chǔ)算法研究中?”
今年4月底,中國(guó)工程院院士徐匡迪等多位院士的發(fā)聲,直擊我國(guó)在算法這一核心技術(shù)上的缺失,引發(fā)業(yè)界共鳴,被稱為“徐匡迪之問(wèn)”。
由此,“依靠開(kāi)源代碼和算法是否足夠支撐人工智能產(chǎn)業(yè)發(fā)展?”、“為什么要有自己的底層框架和核心算法?”等一系列問(wèn)題,成為行業(yè)熱議的話題。
事實(shí)上,除了核心算法之外,對(duì)底層框架的忽視,也成為影響我國(guó)人工智能發(fā)展的重要因素,甚至比“缺芯少魂”、“卡脖子”問(wèn)題更危險(xiǎn)!
然而,想要理清其中的緣由,就需要從讀懂機(jī)器學(xué)習(xí)開(kāi)始。
什么是機(jī)器學(xué)習(xí)?
眾所周知,AI的根本目的就是讓計(jì)算機(jī)模擬人類的行為和思維,以實(shí)現(xiàn)解放人力,提升效率,降低成本。其中,機(jī)器學(xué)習(xí)(Machine Learning)則是AI的智慧源泉。
從學(xué)術(shù)上來(lái)說(shuō),機(jī)器學(xué)習(xí)涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多領(lǐng)域交叉的課題和技術(shù)。
從廣義上來(lái)說(shuō),機(jī)器學(xué)習(xí)就是賦予計(jì)算機(jī)學(xué)習(xí)能力,并實(shí)現(xiàn)模仿人類的一種方法。
從技術(shù)應(yīng)用上來(lái)說(shuō),機(jī)器學(xué)習(xí)是利用大量數(shù)據(jù),訓(xùn)練出專用的算法模型,然后通過(guò)該模型實(shí)現(xiàn)類似人的預(yù)測(cè)、推理,從而獲取決策的方法。
從層級(jí)上來(lái)說(shuō),機(jī)器學(xué)習(xí)位于AI的技術(shù)層,與其他技術(shù)的相融合,構(gòu)成了計(jì)算機(jī)視覺(jué)、智能語(yǔ)音、模式識(shí)別、數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)習(xí)等AI核心技術(shù),并在應(yīng)用層得以體現(xiàn)。
從AI發(fā)展來(lái)看,幾乎所有核心技術(shù)和應(yīng)用場(chǎng)景的背后,都離不開(kāi)機(jī)器學(xué)習(xí)所賦予的學(xué)習(xí)能力,也就是智能。
總之,機(jī)器學(xué)習(xí)既是人工智能的核心,也是計(jì)算機(jī)獲得學(xué)習(xí)能力和智力的方法或途徑。
而機(jī)器學(xué)習(xí)的核心則是算法。
深度學(xué)習(xí)算法與底層框架
作為AI大三元素(數(shù)據(jù)、算力、算法),目前主流的算法主要面向機(jī)器學(xué)習(xí)領(lǐng)域。因此,機(jī)器學(xué)習(xí)也可以理解為用于訓(xùn)練和推理的算法合集。
目前,機(jī)器學(xué)習(xí)算法可以分為傳統(tǒng)算法和深度學(xué)習(xí)(Deep Learning)算法兩大類。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中一個(gè)新興的研究方向,也是一個(gè)復(fù)雜的機(jī)器學(xué)習(xí)算法。深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究,建立模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),以模仿人腦的機(jī)制來(lái)解釋數(shù)據(jù),強(qiáng)調(diào)模型結(jié)構(gòu)的深度和明確特征學(xué)習(xí)的重要性。
因此,深度學(xué)習(xí)使計(jì)算機(jī)實(shí)現(xiàn)模仿視聽(tīng)和思考等人類的活動(dòng),解決了大量復(fù)雜的模式識(shí)別難題,從而推動(dòng)計(jì)算機(jī)視覺(jué)、智能語(yǔ)音等復(fù)雜AI基礎(chǔ)技術(shù)的落地。
可以說(shuō),深度學(xué)習(xí)算法決定了未來(lái)AI的發(fā)展趨勢(shì),乃是兵家必爭(zhēng)之地。
現(xiàn)在,全球AI領(lǐng)域,深度學(xué)習(xí)已經(jīng)超越傳統(tǒng)機(jī)器學(xué)習(xí),成為主流算法。但是,機(jī)器學(xué)習(xí)仍未被取代,兩者呈現(xiàn)互補(bǔ)的態(tài)勢(shì)。隨著深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)算法的結(jié)合,不僅降低了算法訓(xùn)練的門(mén)檻,更衍生出大量熱門(mén)算法以及相應(yīng)的底層構(gòu)架。
與依賴于芯片的算力不同,算法由于開(kāi)源代碼、自動(dòng)化工具等助力,門(mén)檻相對(duì)降低不少,因而成為初創(chuàng)公司不錯(cuò)的切入點(diǎn)?,F(xiàn)在,大多AI企業(yè)基本都是圍繞算法及相應(yīng)的應(yīng)用場(chǎng)景做文章,在國(guó)內(nèi)尤為普遍。
然而,這些基于開(kāi)源代碼和自動(dòng)化工具的算法往往過(guò)于通用和初級(jí),僅僅依托國(guó)內(nèi)海量數(shù)據(jù)儲(chǔ)備和豐富的應(yīng)用場(chǎng)景的優(yōu)勢(shì),實(shí)現(xiàn)最基本的功能而已。真正核心和關(guān)鍵算法仍然掌握在國(guó)外大廠手中,核心競(jìng)爭(zhēng)力明顯不足。
而且,不僅是核心算法,深度學(xué)習(xí)的底層框架也同樣來(lái)自于國(guó)外廠商。
底層框架,一般被稱作為開(kāi)源框架或算法訓(xùn)練平臺(tái)。通俗來(lái)說(shuō),就是AI工具包,其作用就是用以訓(xùn)練算法模型的平臺(tái)。
如果將算法比作“子彈”的話,底層框架就是“軍工廠”,重要性不言而喻。
僅僅是算法的缺失,可以通過(guò)企業(yè)、開(kāi)發(fā)者及整個(gè)行業(yè)的共同努力來(lái)彌補(bǔ),但連工具都被“卡脖子”的話,顯然將大大制約我國(guó)深度學(xué)習(xí),乃至整個(gè)AI產(chǎn)業(yè)的發(fā)展。
外來(lái)的和尚好念經(jīng)
目前,主流的深度學(xué)習(xí)底層框架雖然大多已經(jīng)開(kāi)源,但基本都來(lái)自于美國(guó)科技巨頭及大學(xué)相關(guān)實(shí)驗(yàn)室,例如TensorFlow(谷歌)、PyTorch(Facebook)、MXNet(亞馬遜)、CNTK(微軟)、Deeplearning4j(美國(guó)AI初創(chuàng)公司Skymind)、Theano(蒙特利爾理工學(xué)院)、Caffe(加州大學(xué)伯克利/賈揚(yáng)清開(kāi)發(fā))、Keras(谷歌工程師Fran?oisChollet開(kāi)發(fā))等等。
其中, TensorFlow和PyTorch應(yīng)用最為廣泛,全球AI企業(yè)都將其視為重要的工具包。據(jù)TensorFlow網(wǎng)站顯示,京東、中國(guó)移動(dòng)、美團(tuán)、搜狗等中國(guó)企業(yè)都在使用該框架,用于深度學(xué)習(xí)的應(yīng)用和開(kāi)發(fā)。
任何企業(yè)和開(kāi)發(fā)者都可以將數(shù)據(jù)饋入其中,并開(kāi)始訓(xùn)練自己的算法模型,無(wú)需重頭開(kāi)始自行開(kāi)發(fā)底層框架和開(kāi)發(fā)平臺(tái),所謂 “站在巨人的肩膀”。
谷歌、Facebook、亞馬遜、微軟也在不遺余力地投入,對(duì)這些底層框架進(jìn)行維護(hù)、升級(jí)和推廣,以確保其受到全球開(kāi)發(fā)者的歡迎。根本目的就是建立統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,進(jìn)而形成完整的生態(tài)。最簡(jiǎn)單的例子就是谷歌的安卓操作系統(tǒng),雖為開(kāi)源,但也形成了技術(shù)壁壘,讓其他廠商難以逾越。
同時(shí),大量企業(yè)和開(kāi)發(fā)者也在為這些開(kāi)源構(gòu)架默默地做著貢獻(xiàn),從而推動(dòng)其不斷壯大。從另一個(gè)層面來(lái)說(shuō),盡管底層框架均為開(kāi)源、免費(fèi),但獲得全球開(kāi)發(fā)者助力的同時(shí),也省去了建立國(guó)際性開(kāi)發(fā)團(tuán)隊(duì)的巨額成本。
其實(shí),國(guó)內(nèi)巨頭已經(jīng)意識(shí)到了這個(gè)問(wèn)題。BAT、華為、商湯、曠視、360以及浪潮等廠商都已經(jīng)推出了各自的機(jī)器學(xué)習(xí)底層框架。
尤其是百度飛槳(Paddle Paddle)自2016年開(kāi)源起,一直在不斷升級(jí)和推廣,以吸引更多的企業(yè)和開(kāi)發(fā)者的關(guān)注。2017年,騰訊Angel、360 Xlearning先后宣布開(kāi)源。2018年年底,阿里x-deeplearning也正式開(kāi)源。今年8月,華為推出了MindSpore深度學(xué)習(xí)框架,并將在2020年第一季度開(kāi)源。此外,包括商湯、曠視、浪潮等廠商雖然已經(jīng)擁有自己的底層構(gòu)架,但遺憾的是并沒(méi)有開(kāi)源。
最近,小米宣布語(yǔ)音識(shí)別開(kāi)源工具Kaldi 之父DanielPovey將出任語(yǔ)音首席科學(xué)家,很可能會(huì)加大相關(guān)底層構(gòu)架的研發(fā)。
盡管中國(guó)廠商已經(jīng)擁有了自研底層框架的實(shí)力,但在先入為主的國(guó)外開(kāi)源構(gòu)架面前,不僅用戶量不足,而且缺乏貢獻(xiàn)者,更有過(guò)于封閉的問(wèn)題,因此底層構(gòu)架的國(guó)產(chǎn)化可謂路漫漫。
如何突圍?
隨著國(guó)內(nèi)自研AI芯片成為全新的風(fēng)潮,讓人看到了突破芯片“卡脖子”,實(shí)現(xiàn)“彎道超車”的可能。
即便如此,現(xiàn)在中國(guó)AI基礎(chǔ)研究和基礎(chǔ)設(shè)施仍然相當(dāng)薄弱,包括硬件在內(nèi)的大量核心技術(shù)掌控在美國(guó)手中,更隨時(shí)面臨“技術(shù)封鎖”和“斷供”的風(fēng)險(xiǎn)。
同樣的情況也發(fā)生在深度學(xué)習(xí)領(lǐng)域,核心算法和底層構(gòu)架的缺失,一旦風(fēng)險(xiǎn)爆發(fā),將對(duì)中國(guó)AI發(fā)展帶來(lái)致命影響。
從國(guó)外廠商在AI領(lǐng)域的布局來(lái)看,無(wú)論是云計(jì)算、芯片,還是算法和底層框架,均以構(gòu)建自己的生態(tài)為根本目的,從而建立起牢不可破的“護(hù)城河”。
好在,阿里、百度、華為等國(guó)內(nèi)巨頭已經(jīng)從各個(gè)角度開(kāi)展布局,阿里平頭哥“含光800”、華為麒麟系列芯片、鴻蒙操作系統(tǒng)以及百度飛槳等都是典型的代表。其中,今年7月,百度宣布飛槳與華為麒麟展開(kāi)合作,芯片與底層構(gòu)架的聯(lián)手,無(wú)疑將共同推動(dòng)中國(guó)深度學(xué)習(xí)和AI產(chǎn)業(yè)的落地和發(fā)展。相信這也是建立中國(guó)力量生態(tài)圈最好范例。
此外,建立和推動(dòng)開(kāi)源文化,也是擺在中國(guó)企業(yè)面前的老生常談的問(wèn)題。唯有擁抱開(kāi)放、共享,才能真正推動(dòng)中國(guó)核心技術(shù),尤其是AI技術(shù)的快速進(jìn)步和發(fā)展,從而突破“卡脖子”封鎖。
目前,國(guó)內(nèi)深度學(xué)習(xí)廠商主要分為云計(jì)算平臺(tái)、AI初創(chuàng)企業(yè)、傳統(tǒng)計(jì)算廠商以及大數(shù)據(jù)企業(yè)多個(gè)陣營(yíng)。其中,云計(jì)算平臺(tái)主要是BAT、華為、京東等互聯(lián)網(wǎng)巨頭為首;AI初創(chuàng)企業(yè)主要有第四范式、商湯、曠視、寒武紀(jì)等;浪潮、中科曙光等則發(fā)揮自身計(jì)算優(yōu)勢(shì),占有一席之地;星環(huán)科技、美林?jǐn)?shù)據(jù)、九章云極等大數(shù)據(jù)企業(yè)擁有數(shù)據(jù)挖掘的優(yōu)勢(shì),也成為生態(tài)中不可獲取的力量。
由此可知,除了AI本身之外,深度學(xué)習(xí)、機(jī)器學(xué)習(xí)與云、計(jì)算、數(shù)據(jù)等關(guān)鍵技術(shù)密不可分,這也恰恰證實(shí)了國(guó)內(nèi)海量數(shù)據(jù)儲(chǔ)備和互聯(lián)網(wǎng)基礎(chǔ)設(shè)施建設(shè)對(duì)AI行業(yè)起到的推動(dòng)作用。然而,正如上文所述,唯有掌控核心算法和底層框架,擁有基礎(chǔ)設(shè)施和核心技術(shù)的自研能力,才能真正主導(dǎo)深度學(xué)習(xí)及機(jī)器學(xué)習(xí)行業(yè)。
總之,就連機(jī)器學(xué)習(xí)、深度學(xué)習(xí)這樣的AI工具包都一直掌控在美國(guó)手中,無(wú)疑比芯片、操作系統(tǒng)等核心技術(shù)的“卡脖子”問(wèn)題更危險(xiǎn)!