科大訊飛李世鵬:答AI技術(shù)的當(dāng)下戰(zhàn)局,給AI創(chuàng)業(yè)者的九條建議 | CCF-GAIR 2019
記者(公眾號(hào):記者)按:7月12日-7月14日,2019第四屆全球人工智能與機(jī)器人峰會(huì)(CCF-GAIR 2019)于深圳正式召開(kāi)。峰會(huì)由中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,記者、香港中文大學(xué)(深圳)承辦,深圳市人工智能與機(jī)器人研究院協(xié)辦,得到了深圳市政府的大力指導(dǎo),是國(guó)內(nèi)人工智能和機(jī)器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級(jí)交流博覽盛會(huì),旨在打造國(guó)內(nèi)人工智能領(lǐng)域極具實(shí)力的跨界交流合作平臺(tái)。
人工智能發(fā)展至今,已經(jīng)開(kāi)始走入各類行業(yè),諸如AI+教育、AI+醫(yī)療、AI+交通等在當(dāng)下備受關(guān)注。而在人工智能技術(shù)體系中,文本、語(yǔ)音、視覺(jué)是當(dāng)下最火的三大關(guān)鍵技術(shù),大數(shù)據(jù)、物聯(lián)網(wǎng)、云計(jì)算又是當(dāng)下三大關(guān)鍵技術(shù)體系,各類行業(yè)應(yīng)用也都是基于這些技術(shù)進(jìn)行的應(yīng)用。
盡管如此,隨著AI越來(lái)越深入行業(yè),對(duì)算力、算法的要求越來(lái)越高,對(duì)計(jì)算架構(gòu)的精準(zhǔn)性、穩(wěn)定性、并發(fā)性等關(guān)鍵性能要求越來(lái)越高,AI究竟會(huì)走向何處?
在CCF-GAIR 2019的「中國(guó)人工智能四十年專場(chǎng)」論壇上,科大訊飛集團(tuán)副總裁兼訊飛研究院聯(lián)席院長(zhǎng)李世鵬博士發(fā)表了《人工智能技術(shù)大規(guī)模應(yīng)用的挑戰(zhàn)和機(jī)遇》的主題演講,介紹了當(dāng)下人工智能的技術(shù)應(yīng)用和行業(yè)布局的機(jī)遇和挑戰(zhàn),并就人工智能該如何走下去給出了自己的看法。
以下為李世鵬博士的演講全文,記者進(jìn)行了不改變?cè)獾木庉嫞?/strong>
李世鵬博士,現(xiàn)任科大訊飛集團(tuán)副總裁兼訊飛研究院聯(lián)席院長(zhǎng)。他曾是微軟亞洲研究院創(chuàng)始成員并曾任副院長(zhǎng)。現(xiàn)任《IEEE電路與系統(tǒng)視頻技術(shù)學(xué)報(bào)》總編輯,在多媒體、物聯(lián)網(wǎng)及人工智能等領(lǐng)域極具影響力,擁有199項(xiàng)美國(guó)專利,并發(fā)表了330多篇被引用了21020多次的論文(H指數(shù):74)。他培養(yǎng)出四位MIT TR35創(chuàng)新獎(jiǎng)的獲得者。李博士擁有中國(guó)科大學(xué)士和碩士學(xué)位、Lehigh大學(xué)博士學(xué)位,同時(shí)也是IEEE Fellow。李博士是(科技部)新一代人工智能產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟發(fā)起人之一及聯(lián)合秘書(shū)長(zhǎng),同時(shí)兼任深圳市人工智能和機(jī)器人研究院(AIRS)執(zhí)行院長(zhǎng)。
人工智能的六層分布從數(shù)據(jù)的角度來(lái)看,我們?nèi)绾螌⑷斯ぶ悄芊謱?,我這里大概分了6層:通知、算知、感知、認(rèn)知、預(yù)知、決知。
其中每向上一層都代表一個(gè)更高一個(gè)層級(jí)的智能,不同層級(jí)的智能與大數(shù)據(jù)的依賴關(guān)系有所不同,我們看到其中有知識(shí)庫(kù)、環(huán)境數(shù)據(jù)、用戶個(gè)人數(shù)據(jù),這些數(shù)據(jù)與相應(yīng)層級(jí)間形成一個(gè)反饋,在這些數(shù)據(jù)的基礎(chǔ)上就能達(dá)到不同層次的應(yīng)用。
具體不同層次的人工智能需要哪些數(shù)據(jù)如下圖所示。圖中實(shí)心綠點(diǎn)表示確實(shí)需要這個(gè)數(shù)據(jù),空心點(diǎn)表示可能會(huì)用到的數(shù)據(jù)。從底層的人工智能到高層的人工智能,代表所需要的數(shù)據(jù)種類和數(shù)據(jù)量上的跳躍。
今天的人工智能究竟達(dá)到了什么程度?
下圖中有三條線,綠線是10年以前的人工智能發(fā)展情況,橙色的線是今天人工智能的發(fā)展現(xiàn)狀,到感知智能這一層,我們基本上已經(jīng)做到可以好用了。
什么屬于感知智能?具體而言,感知智能包括語(yǔ)音識(shí)別、人臉識(shí)別、圖象識(shí)別,甚至我們把機(jī)器翻譯也作為感知智能的一部分。感知智能在我的定義中,它是不提供新的信息的,它只是把信息從一類表達(dá)方式轉(zhuǎn)換成另外一類表達(dá)方式。例如,語(yǔ)音識(shí)別是把一個(gè)語(yǔ)音信號(hào)轉(zhuǎn)換成為一個(gè)文本信號(hào),翻譯是把信息從一類語(yǔ)言的表達(dá)轉(zhuǎn)換成為另外一類語(yǔ)言的表達(dá),今天感知智能已經(jīng)到了從可以使用轉(zhuǎn)向好用的階段。
認(rèn)知智能還很遙遠(yuǎn),盡管現(xiàn)在我們?cè)陂喿x理解中,在很多其他場(chǎng)景中也會(huì)看到認(rèn)知智能的應(yīng)用,但是離真正好用還差很遠(yuǎn)。預(yù)計(jì)大概再過(guò)10年,真正的認(rèn)知智能才能達(dá)到今天感知智能的技術(shù)水平。
從智能到群智:技術(shù)融合是關(guān)鍵整個(gè)AI體系中有很多概念,包括人工智能、機(jī)器人、IoT,以及人和環(huán)境。它們相互之間是什么關(guān)系呢?
具體這幾個(gè)元素之間的相互作用關(guān)系如上圖所示,AI需要機(jī)器人或IoT來(lái)傳感一些現(xiàn)實(shí)中的信號(hào),反饋給它,AI處理完后,反過(guò)來(lái)影響和控制現(xiàn)實(shí)生活中的機(jī)器人或者其它的設(shè)備。人與機(jī)器之間的交互通過(guò)人機(jī)交互界面實(shí)現(xiàn),人與AI之間的交互則是通過(guò)人機(jī)耦合實(shí)現(xiàn)。
每一個(gè)部分本身也會(huì)形成一個(gè)群體。人與人之間的關(guān)系形成人類社會(huì);機(jī)器人與機(jī)器人之間的關(guān)系形成機(jī)器社會(huì),這還是一個(gè)沒(méi)被充分挖掘的領(lǐng)域;把所有人工智能技術(shù)融合在一起,就是類人智能。人與機(jī)器人聯(lián)系在一起,就形成了物理世界的智能;人與AI聯(lián)系在一起,就形成虛擬世界的智能;AI和機(jī)器連接在一起,就形成了機(jī)器的智能。
科大訊飛的AI部署:感知智能到認(rèn)知智能感知智能現(xiàn)在的應(yīng)用有很多,在實(shí)際生活中也已經(jīng)在發(fā)揮作用。以科大訊飛的應(yīng)用為例,向大家介紹一下現(xiàn)在人工智能的發(fā)展程度。
科大訊飛成名的技術(shù)是語(yǔ)音技術(shù),語(yǔ)音技術(shù)包括很多方面,包括語(yǔ)音合成、語(yǔ)音識(shí)別,訊飛現(xiàn)在的語(yǔ)音識(shí)別技術(shù)上居于第一梯隊(duì)??拼笥嶏w做語(yǔ)音技術(shù)已經(jīng)有20多年,積累了很多特有的數(shù)據(jù)。盡管如此,語(yǔ)音技術(shù)中要做的工作仍有很多,包括在一些細(xì)分領(lǐng)域,例如在人工智能和機(jī)器人領(lǐng)域,要想將這個(gè)領(lǐng)域中所有的專業(yè)名詞識(shí)別得很好的話,本身就是一個(gè)很有挑戰(zhàn)性的工作,再加上很多方言、口音??拼笥嶏w現(xiàn)在至少支持22種以上中國(guó)各地方言。我特別自豪的是,我們將中國(guó)那些一輩子不講標(biāo)準(zhǔn)普通話的老人的世界打開(kāi)了,他們今天可以用自己的方言去擁抱最先進(jìn)的IT技術(shù)。
在翻譯領(lǐng)域方面,訊飛的翻譯技術(shù)已經(jīng)可以達(dá)到英語(yǔ)六級(jí),今年年底我們將可以達(dá)到英語(yǔ)八級(jí)。
此外,訊飛在計(jì)算機(jī)視覺(jué)方面也有技術(shù)布局,包括OCR技術(shù)、人臉識(shí)別技術(shù)、場(chǎng)景識(shí)別技術(shù),甚至在醫(yī)學(xué)領(lǐng)域的圖象識(shí)別,我們已經(jīng)走在世界前列。
認(rèn)知智能方面,訊飛在斯坦福的SQuAD競(jìng)賽中,在很多方面在世界上第一次超過(guò)人類的閱讀理解。2017年底訊飛的AI機(jī)器人第一次通過(guò)了國(guó)家醫(yī)生資格考試,滿分是600分,360分及格,我們的機(jī)器人拿到了456分,超過(guò)了96.3%的人類考生。也就是說(shuō)它如果是一個(gè)人類醫(yī)生,它是Top 5%的優(yōu)秀學(xué)生。這些都是科大訊飛在技術(shù)上進(jìn)展。
語(yǔ)音合成方面,今天的語(yǔ)音合成不止可以做到自然的聲音合成,還可以做到圖象合成,我們可以把聲音與畫(huà)面同步結(jié)合起來(lái),這樣就可以有多種應(yīng)用,例如現(xiàn)在很多地方電視臺(tái)或網(wǎng)站有用到訊飛的虛擬主播技術(shù),通過(guò)自然的表現(xiàn)方式向用戶傳達(dá)新聞信息。
下圖是最近幾年科大訊飛在多次人工智能競(jìng)賽中取得的一些桂冠。
訊飛技術(shù)應(yīng)用一:語(yǔ)音類產(chǎn)品、硬件技術(shù)是一方面,如果我們沒(méi)有切實(shí)的應(yīng)用,它就只能停留在技術(shù)層面。
科大訊飛在語(yǔ)音和語(yǔ)言處理方面做了很多工作,也把它實(shí)實(shí)在在落地了,它打破了人與機(jī)器之間的交互障礙,也打破了人與人之間通訊的障礙,科大訊飛也注重文化保護(hù)、語(yǔ)言保護(hù),世界上很多國(guó)家只有語(yǔ)言,沒(méi)有文字,包括中國(guó)的一些少數(shù)民族,他們同樣也沒(méi)有文字,也許將來(lái)人類沒(méi)有人能再聽(tīng)懂他們講的話,如果機(jī)器能夠聽(tīng)懂,并且會(huì)說(shuō),這是對(duì)文化保護(hù)的一個(gè)巨大的貢獻(xiàn)。
在人機(jī)交互界面方面,今天的人機(jī)交互界面不單純停留在人與機(jī)器交互的你問(wèn)我答,還在于它有一定的智能。
科大訊飛的人工智能技術(shù)目前已經(jīng)應(yīng)用于客服及其他多種產(chǎn)品服務(wù)中,科大訊飛前不久剛剛發(fā)布了翻譯機(jī)3.0。這款翻譯機(jī)可以支持58種語(yǔ)言,同時(shí)還支持5種中國(guó)方言,支持7種不同的英語(yǔ)口音,包括英國(guó)音、美國(guó)音、澳大利亞音、印度音等。
很多國(guó)家的英語(yǔ)口音很難聽(tīng)懂,但是機(jī)器能聽(tīng)懂。
此外,科大訊飛還有諸如“聽(tīng)見(jiàn)”系統(tǒng)(實(shí)時(shí)轉(zhuǎn)錄和翻譯)、智能錄音筆、智能辦公本等產(chǎn)品。
此外,科大訊飛現(xiàn)在也在行業(yè)領(lǐng)域不斷進(jìn)行探索。
訊飛技術(shù)應(yīng)用二:AI+教育第一個(gè)領(lǐng)域是AI+教育。從古到今,大家最習(xí)慣的就是老師在上面講,學(xué)生在下面聽(tīng),由于老師的資源缺乏,一位老師不可能有那么多精力給每位學(xué)生因材施教。今天我們通過(guò)人工智能的技術(shù),可以做到因材施教。具體人工智能技術(shù)工作流程如下圖:
簡(jiǎn)言之,具體分為以下幾步:
首先,我們會(huì)采集學(xué)生在做作業(yè)、做習(xí)題、考試過(guò)程中的所有數(shù)據(jù),我們用掃描的方法將它掃描到計(jì)算機(jī)中;
同時(shí),我們用到前面提到的科大訊飛的OCR技術(shù),將這些內(nèi)容數(shù)字化;
然后再通過(guò)分析系統(tǒng)對(duì)題目進(jìn)行分析,并分析學(xué)生在哪一步出了錯(cuò),哪個(gè)概念不熟悉;
將這些分析結(jié)果再反饋到我們?yōu)槊總€(gè)學(xué)科專門(mén)做的知識(shí)圖譜中,并在這個(gè)圖譜上標(biāo)記出每位學(xué)生對(duì)這個(gè)學(xué)科的哪些知識(shí)點(diǎn)是熟悉的,哪些知識(shí)點(diǎn)是薄弱的,哪些知識(shí)點(diǎn)還依賴于前面某個(gè)該學(xué)生不熟悉的知識(shí)點(diǎn)。
我們?yōu)槊课粚W(xué)生定制了這樣一個(gè)知識(shí)圖譜,老師按一個(gè)鍵就可以對(duì)每位學(xué)生實(shí)現(xiàn)下發(fā)定制化的教學(xué)內(nèi)容,同時(shí)可以做個(gè)性化的家庭作業(yè)。這樣,每位學(xué)生就可以只做自己不熟悉的作業(yè),而那些他熟悉的作業(yè)就不需要再重復(fù)做了。這樣可以為學(xué)生省去很多時(shí)間,據(jù)科大訊飛粗略統(tǒng)計(jì),預(yù)計(jì)能省去30%的時(shí)間,這些時(shí)間可以用來(lái)學(xué)習(xí)其它的知識(shí),或者探索其它領(lǐng)域,這就是科大訊飛能夠提供的個(gè)性化教育。
訊飛技術(shù)應(yīng)用三:AI+醫(yī)療我們知道科大訊飛的語(yǔ)音識(shí)別、OCR技術(shù)可以很容易把醫(yī)生與病人的問(wèn)診記錄,以及一些過(guò)去的醫(yī)療記錄轉(zhuǎn)成文本,數(shù)字化,然后通過(guò)我們的醫(yī)療機(jī)器人或智醫(yī)助理對(duì)這些數(shù)據(jù)進(jìn)行分析。
傳統(tǒng)的一個(gè)沒(méi)有經(jīng)驗(yàn)的醫(yī)生在為病人看病時(shí),會(huì)出現(xiàn)誤診或是第一印象覺(jué)得是某個(gè)病,就按那個(gè)病來(lái)治療。我們的醫(yī)療機(jī)器人不僅可以給出你患某種病的百分比,還可以將這個(gè)癥狀的所有可能的病癥都為你列出來(lái),并且為醫(yī)生提供一些建議,告訴他可能要做怎樣的檢查,引導(dǎo)醫(yī)生進(jìn)行正確的診斷。訊飛的智醫(yī)助理已經(jīng)在安徽落地,成為全國(guó)首個(gè)智慧醫(yī)院中的AI系統(tǒng)。
以上這些是AI在行業(yè)中的具體應(yīng)用,具體AI技術(shù)當(dāng)下面臨怎樣的挑戰(zhàn)?
AI技術(shù)當(dāng)下挑戰(zhàn):無(wú)止境的算力、未知應(yīng)用場(chǎng)景人工智能經(jīng)歷了三個(gè)高潮和低谷,到今天進(jìn)入以大數(shù)據(jù)驅(qū)動(dòng)的深度神經(jīng)網(wǎng)絡(luò)階段,今天很多技術(shù)已經(jīng)可以成熟到放在一個(gè)實(shí)際應(yīng)用產(chǎn)品或場(chǎng)景中。
現(xiàn)在有好消息,也有壞消息。
好消息是:基于深度學(xué)習(xí)的AI在某些領(lǐng)域已經(jīng)超過(guò)了人類,大家在用AI提高工作效率、工作有效性、準(zhǔn)確度等方面都很有效。此外,整個(gè)工業(yè)界也知道AI的好處,現(xiàn)在也有很多Open AI的計(jì)算框架,讓不懂AI的人可以用已有的數(shù)據(jù)做應(yīng)用和服務(wù)。
壞消息是:為什么AI的發(fā)展有高峰、有低谷?有高峰是因?yàn)榇蠹覍?duì)AI的期待太高,今天的AI還不是一個(gè)真正意義的智能,它所有的智能仍是基于大數(shù)據(jù)。如果你從來(lái)沒(méi)有給它某個(gè)方向、某個(gè)場(chǎng)景的數(shù)據(jù),它永遠(yuǎn)無(wú)法正確處理此類數(shù)據(jù)。所以這就造成了在很多關(guān)鍵應(yīng)用領(lǐng)域,例如自動(dòng)駕駛中的普適安全問(wèn)題。其實(shí)我對(duì)這件事情一直很擔(dān)心,總有一天它會(huì)在遇到一個(gè)從來(lái)沒(méi)見(jiàn)過(guò)的場(chǎng)景時(shí)無(wú)法處理,那時(shí)就可能會(huì)出事故。
因?yàn)槲覀兘裉焯蕾嚁?shù)據(jù),所以數(shù)據(jù)成為我們的瓶頸,這在工業(yè)界尤其明顯。我們現(xiàn)在特別怕定制一些人工智能服務(wù),因?yàn)槟阋ㄖ频脑?,就意味著你要為那個(gè)應(yīng)用去收集、標(biāo)注很多數(shù)據(jù),這個(gè)工作量消耗的資源是巨大的。
現(xiàn)在的AI還需要很強(qiáng)的計(jì)算能力,多少算力才足夠?沒(méi)有人知道。
所以我們最后還是需要有一個(gè)新的AI框架,也許我們可以從人的認(rèn)知過(guò)程中吸取一些經(jīng)驗(yàn)。
我們可以用一個(gè)開(kāi)放的框架來(lái)解決部分問(wèn)題,科大訊飛應(yīng)該是中國(guó)最早把自己的語(yǔ)音識(shí)別的服務(wù)開(kāi)放出來(lái)給開(kāi)發(fā)者的廠商,同時(shí)今天也有很多開(kāi)放的軟件、用戶界面、云服務(wù)、用戶數(shù)據(jù)。新一代人工智能產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟一個(gè)重要的職責(zé)就是促進(jìn)中國(guó)在開(kāi)放平臺(tái)方面的建設(shè)。
此外,在用戶數(shù)據(jù)的保護(hù)方面,我們需要標(biāo)準(zhǔn)和法律,這是條很漫長(zhǎng)的道路。
寫(xiě)給AI創(chuàng)業(yè)者的九條建議作為一個(gè)創(chuàng)業(yè)者,在人工智能領(lǐng)域可以做哪些呢?
第一,人才培養(yǎng)和教育,這也許是人工智能發(fā)展過(guò)程中的一個(gè)很重要的產(chǎn)業(yè);
第二,數(shù)據(jù),以前所有的工作都靠手工去做,今天我們可以引入一些AI工具,讓機(jī)器來(lái)幫助我們做大多容易做的事情,最后剩很少的數(shù)據(jù)放給人來(lái)標(biāo)注;
第三,算力,到底計(jì)算應(yīng)該放在端上,還是放在云上,還是一個(gè)云端邊緣計(jì)算的優(yōu)化?AI芯片也許還有很多的機(jī)會(huì)。
今天大家都在布局AI芯片,但是一個(gè)巨大的挑戰(zhàn)是AI的最終框架是什么,誰(shuí)也不知道。所以也許今天你做了AI芯片,為某個(gè)框架去優(yōu)化,也許再過(guò)兩年就會(huì)改變。我們還沒(méi)有像英特爾X86這樣的架構(gòu)能做所有的事情。
第四,人機(jī)的有效融合,和諧發(fā)展。
現(xiàn)在的大數(shù)據(jù)、人工智能還有一些解決不了的問(wèn)題,在一些關(guān)鍵領(lǐng)域,我們?nèi)绾文茏寵C(jī)器告訴人類,前面我遇到一個(gè)很復(fù)雜的場(chǎng)景,我沒(méi)法處理了,人類是否應(yīng)該快速介入。由此衍生出一個(gè)很有意思的課題,在機(jī)器為你推薦的時(shí)候,是不是也要給你一個(gè)可信度,這樣在可信度低的情況下,人類就把它接過(guò)來(lái),避免很多無(wú)謂的事故,或者一些大的問(wèn)題。
第五,政治正確性,很多統(tǒng)計(jì)上有意義的事情,也許在政治上并不正確。
第六,系統(tǒng),我們?yōu)槭裁唇鉀Q問(wèn)題要靠一個(gè)單一的信號(hào)源?其實(shí)把多個(gè)數(shù)據(jù)融合在一起也許是未來(lái)之路;即使做語(yǔ)音識(shí)別,為什么只停留在語(yǔ)音信號(hào),為什么不能把你的口型、體態(tài)放進(jìn)去,把我們的位置信息、時(shí)間信息都放進(jìn)去,把我們知道的更高層次的數(shù)據(jù)放進(jìn)去,也許對(duì)人工智能發(fā)展有更多的好處。
第七,細(xì)節(jié),人工智能為什么越做越怕?因?yàn)樽詈蠖际窃诩?xì)節(jié)上,沒(méi)有關(guān)于某方面的一些細(xì)致的數(shù)據(jù),永遠(yuǎn)做不到極致。
第八,知識(shí)圖譜和大數(shù)據(jù),在今天大家都在講知識(shí)圖譜和大數(shù)據(jù),其實(shí)還沒(méi)有特別好的框架把這兩者有機(jī)結(jié)合起來(lái),我們看到很多領(lǐng)域大家已經(jīng)在嘗試這方面的工作。
第九,AI應(yīng)用商店,我們知道中美之間很多不一樣的地方在于美國(guó)掌握了很多應(yīng)用生態(tài),例如蘋(píng)果應(yīng)用商店、安卓的應(yīng)用商店,在今天AI領(lǐng)域中,我們要不要建立一套屬于我們能控制的應(yīng)用生態(tài)?
例如,今天很多人在做智慧醫(yī)療,智慧醫(yī)療涉及的病種非常多,每家公司不可能全都做到,有沒(méi)有一個(gè)醫(yī)療的統(tǒng)一的框架,大家把自己的能力、技能都放到里面去,組合在一起,會(huì)形成一個(gè)更大或者更好、更全面的系統(tǒng)。因而,這也是值得大家關(guān)注的一個(gè)領(lǐng)域。
「AI投研邦」將在近期上線CCF GAIR 2019峰會(huì)完整視頻與各大主題專場(chǎng)白皮書(shū),包括機(jī)器人前沿專場(chǎng)、智能交通專場(chǎng)、智慧城市專場(chǎng)、AI芯片專場(chǎng)、AI金融專場(chǎng)、AI醫(yī)療專場(chǎng)、智慧教育專場(chǎng)等?!窤I投研邦」會(huì)員們可免費(fèi)觀看全年峰會(huì)視頻與研報(bào)內(nèi)容,掃碼進(jìn)入會(huì)員頁(yè)面了解更多,或私信助教小慕(微信:moocmm)咨詢。