科大訊飛的語音識別為什么那么準(zhǔn)?
近日,錘子新機(jī)發(fā)布會讓科大訊飛語音輸入法火了!大家紛紛表示:不管說得多快、多復(fù)雜,這款神器都能識別。甚至前幾天一個搞電影的盆友拿著這款神奇對一個從事IT行業(yè)近10年的我普及了下什么叫語境識別,瞬間我感到世界翻轉(zhuǎn)了……為了表示我這些年不是白干的,我決定簡單解釋下為啥科大訊飛語音輸入法辣么準(zhǔn)。
這一切源于一個叫“深度學(xué)習(xí)”的東西。深度學(xué)習(xí)是在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),使得機(jī)器能從大量歷史數(shù)據(jù)中學(xué)習(xí)規(guī)律,從而對新的樣本做智能識別或?qū)ξ磥碜鲱A(yù)測,以達(dá)到具有人類一樣的思考能力。
影響深度學(xué)習(xí)發(fā)展有3個前提條件:算法、計算和數(shù)據(jù)。隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,人類可獲取利用的數(shù)據(jù)正以爆炸式增長,預(yù)計2020年全球數(shù)據(jù)量將超過4萬億GB,這解決了深度學(xué)習(xí)發(fā)展的數(shù)據(jù)獲取問題。在算法方面,目前最常用的是DNN算法(k近鄰分類算法),它能比較好地模擬人腦神經(jīng)元多層深度傳遞的過程,解決智能語音中的復(fù)雜問題,那么接下來就是計算了。據(jù)了解,人類大腦大致有1000億神經(jīng)元,每個神經(jīng)元有大約5000個神經(jīng)突觸,要使機(jī)器無限接近人類的思考能力意味著要模擬出更多的神經(jīng)元和神經(jīng)突觸,這就會帶來巨大的計算挑戰(zhàn)。
為了提升智能語音識別率,科大訊飛很早就宣布了“訊飛超腦計劃”,計劃將模擬人腦神經(jīng)元的1/10,以期讓該公司的智能語音設(shè)備擁有初步的人類思考能力。要實現(xiàn)人腦神經(jīng)元的1/10的深度模擬,意味著科大訊飛面臨著數(shù)千倍訓(xùn)練數(shù)據(jù)及數(shù)千倍模型參數(shù)的巨大挑戰(zhàn)。更大規(guī)模、更多存儲的超算集群、更優(yōu)的深度學(xué)習(xí)并行化及集群調(diào)度算法和深度定制的人工神經(jīng)網(wǎng)絡(luò)專屬芯片系統(tǒng)也成為了科大訊飛的迫切需求。
提到這里,不得不提下浪潮。浪潮在很早之前就跟科大訊飛展開了合作,浪潮為科大訊飛設(shè)計構(gòu)建的高性能計算集群采用NF5280M4、NF5288M4服務(wù)器做集群節(jié)點,其中每個NF5280M4服務(wù)器配置1塊NVIDIA M40加速卡,每個NF5288M4服務(wù)器配置4塊NVIDIA M40加速卡。目前,這幾款服務(wù)器已經(jīng)應(yīng)用在科大訊飛等眾多公司支持深度學(xué)習(xí)應(yīng)用。