AI之路再進(jìn)一步,依圖科技入局語音識(shí)別
眼下,行業(yè)巨頭都在打造自己的智能語音生態(tài)系統(tǒng),國(guó)外有IBM、微軟、Google等,國(guó)內(nèi)則有百度、阿里、科大訊飛、搜狗和云知聲。
但這一次,四大AI獨(dú)角獸之一的依圖科技也正式拿到入場(chǎng)券了。
12月11日消息,依圖科技今日公布了其在中文語音識(shí)別技術(shù)上的最新突破,宣稱在全球最大的中文開源數(shù)據(jù)庫AISHELL-2中,依圖短語音聽寫的字錯(cuò)率(CER)僅為3.71%,相比原業(yè)內(nèi)領(lǐng)先者提升約20%,大幅刷新現(xiàn)有紀(jì)錄。
此外,依圖科技現(xiàn)場(chǎng)宣布了與微軟Azure和華為的兩大全新合作。
為何此時(shí)入局?
對(duì)于依圖來說,從計(jì)算機(jī)視覺進(jìn)入到語音識(shí)別,是一次巨大的跳躍,因?yàn)槟壳靶袠I(yè)巨頭林立,入局者比依圖更早拿到市場(chǎng)份額。
但是依圖首席創(chuàng)新官呂昊博士看來,現(xiàn)在的語音識(shí)別技術(shù)發(fā)展還是不夠的,相較于人臉識(shí)別的準(zhǔn)確率而言,語音識(shí)別發(fā)展目前都比較緩慢,無論是學(xué)術(shù)界還是工業(yè)界,對(duì)于語音市場(chǎng)都很看好,這意味著未來發(fā)揮空間十分巨大。
也了解到,語音識(shí)別技術(shù)其實(shí)幾十年前就在發(fā)展,從50年代的貝爾研究所到八九十年代美國(guó)和日本在該技術(shù)上的突破,從軟件到硬件都在取得進(jìn)展;我國(guó)語音識(shí)別研究起始于1958年,后來的“863計(jì)劃”中語音識(shí)別成為重要課題,中國(guó)的語音識(shí)別技術(shù)開始進(jìn)入了真正研究階段。
但由于語音的場(chǎng)景復(fù)雜,技術(shù)突破一直處于緩慢的狀態(tài),目前應(yīng)用較好的也只是特定的幾個(gè)場(chǎng)景。目前業(yè)內(nèi)一些機(jī)構(gòu)已宣傳識(shí)別技術(shù)達(dá)到了人類水平,但大多數(shù)情況下都來自安靜、近場(chǎng)等受限環(huán)境下的結(jié)果。而復(fù)雜的場(chǎng)景諸如電話、語音節(jié)目、遠(yuǎn)場(chǎng)、混響、噪聲、口音、語音節(jié)目等,則需要針對(duì)性地開發(fā)不同模型。
“但技術(shù)無法束縛我們的想象力?!?/p>
呂昊上任依圖首席創(chuàng)新官近一年時(shí)間,去年年底,他辭去了在Google的工作,離開了生活十年的美國(guó),回國(guó)加入依圖。他覺得,在語音識(shí)別領(lǐng)域,依圖科技是一名新生,但立志扮演創(chuàng)造行業(yè)拐點(diǎn)的角色。
“依圖入局語音市場(chǎng)的初心就是源于好奇心,想用算法技術(shù)推動(dòng)實(shí)際問題的解決。我們?cè)贏I領(lǐng)域做了那么多年,已經(jīng)能深入理解和推廣人工智能的應(yīng)用了?!?/p>
可見,作為AI理解世界重要的組成部分,作為人人交互、人機(jī)交互最重要的入口,語音識(shí)別正在拉伸依圖的AI版圖。
盡管這次官方說法是“首次進(jìn)入語音行業(yè)”,但實(shí)際上,依圖一直都有涉獵這個(gè)領(lǐng)域,語音和語義的相關(guān)技術(shù)之前在其醫(yī)療的相關(guān)產(chǎn)品中有過展示,只是沒有公布。
呂昊坦言,科大訊飛做語音技術(shù),的確是業(yè)內(nèi)領(lǐng)先的,但是科大訊飛的語音有多好、和其他語音的距離有多遠(yuǎn)這些方面,其實(shí)很難界定——因?yàn)椴惶该鳌?zhǔn)確率上,行業(yè)水平都是98%-99%,在什么情況下測(cè)的,大家也無法評(píng)判。
實(shí)際上,入局語音市場(chǎng),還有個(gè)因素,呂昊也一并告訴了。
“工業(yè)界目前做語音識(shí)別的水平已經(jīng)遠(yuǎn)遠(yuǎn)超過學(xué)術(shù)界,在一些公開數(shù)據(jù)集上有著1-3倍的性能提升。而工業(yè)界目前做語音技術(shù)的就那么幾家,靠學(xué)術(shù)界去往前推進(jìn)商業(yè)模式,似乎沒有可選的路徑,因?yàn)閿?shù)據(jù)成本非常之高。干脆自己來做?!?/p>
聯(lián)手巨頭:有了華為和微軟,語音市場(chǎng)的入場(chǎng)券拿的更快
這一次,選擇新賽道,依圖并非想做“孤膽英雄”。
因?yàn)槿A為、微軟都選擇和依圖站在了一起。
發(fā)布會(huì)現(xiàn)場(chǎng),依圖宣布聯(lián)合微軟Azure推出依圖語音開放平臺(tái),會(huì)向第三方開放,后續(xù)兩家公司將在智能語音領(lǐng)域雙方有新的動(dòng)作。
此外,依圖還聯(lián)合華為發(fā)布“智能語音聯(lián)合解決方案”,該方案基于依圖語音開放平臺(tái)及華為全棧全場(chǎng)景昇騰(Ascend)系列芯片和面向數(shù)據(jù)中心側(cè)的Atlas 300 AI加速卡,也向第三方開放。
“我們始終認(rèn)為,核心技術(shù)的突破,依然是當(dāng)前破局中文語音識(shí)別發(fā)展的關(guān)鍵?!眳侮槐硎?。
當(dāng)下,AI產(chǎn)業(yè)鏈由基礎(chǔ)層、技術(shù)層與應(yīng)用層構(gòu)成。同樣,智能語音識(shí)別亦由這三層組成。基于大量數(shù)據(jù)的積累、深度神經(jīng)網(wǎng)絡(luò)模型的發(fā)展及算法的迭代優(yōu)化,近年,語音識(shí)別準(zhǔn)確率取得了不斷的提升,外界也在各個(gè)巨頭的測(cè)試結(jié)果中觀察到了“媲美人類”、“與人相似”等字眼。
但語音識(shí)別領(lǐng)域一直存在兩條紅線:3%和15%。
一般認(rèn)為,字錯(cuò)率在低于3%時(shí)不會(huì)影響文字可讀性,而超過15%則毫無可讀性,體驗(yàn)好感大大降低。在不同場(chǎng)景下,不同算法的表現(xiàn)可能會(huì)有很大差異。尤其是中文語音識(shí)別技術(shù)領(lǐng)域,漢語的博大精深帶來的同音不同意等問題,更對(duì)語音識(shí)別的處理難度帶來極大挑戰(zhàn),顯著影響最終的使用體驗(yàn)。
會(huì)上,依圖推出的中文語音識(shí)別算法,與業(yè)內(nèi)原有領(lǐng)先者相比準(zhǔn)確率大幅提升。
近期公開的AISHELL-2的三個(gè)測(cè)試子集,以及來自第三方的近場(chǎng)口音測(cè)試集、近場(chǎng)安靜聊天測(cè)試集、語音節(jié)目測(cè)試集、電話測(cè)試集、遠(yuǎn)場(chǎng)測(cè)試集中,依圖字錯(cuò)率幾乎全部在15%以下(未過紅線)。
注:AISHELL-2是AISHELL Foundation和希爾貝殼宣布的開源數(shù)據(jù)庫,數(shù)據(jù)規(guī)模達(dá)1000小時(shí),是目前全球最大的中文開源數(shù)據(jù)庫。它由1991名來自中國(guó)不同口音區(qū)域的發(fā)言人參與錄制,經(jīng)過專業(yè)語音校對(duì)人員轉(zhuǎn)寫標(biāo)注,通過了嚴(yán)格質(zhì)量檢驗(yàn),數(shù)據(jù)庫文本正確率在96%以上。
值得一提的是,在AISHELL2-2018A-EVAL數(shù)據(jù)集中,依圖的識(shí)別準(zhǔn)確率高達(dá)96.29%,字錯(cuò)率(CER)僅為3.71%。
入局超百億美元市場(chǎng)了,依圖覺得自己“還年輕”
智能語音技術(shù)是人工智能應(yīng)用最成熟的技術(shù)之一,并擁有交互的自然性,因而,其具有巨大的市場(chǎng)空間。
中國(guó)語音產(chǎn)業(yè)聯(lián)盟《2015中國(guó)智能語音產(chǎn)業(yè)發(fā)展白皮書》數(shù)據(jù)顯示,2017年全球智能語音產(chǎn)業(yè)規(guī)模將首次超過百億美元,達(dá)到105億美元。中國(guó)2017年智能語音產(chǎn)業(yè)規(guī)模也將首次突破百億元,五年復(fù)合增長(zhǎng)率超過60%。
此前,科大訊飛發(fā)布2018年Q3報(bào)告,前三季度實(shí)現(xiàn)營(yíng)收52.83億元,同比增長(zhǎng)56%,主要由于持續(xù)加大AI相關(guān)領(lǐng)域的研發(fā)投入、生態(tài)體系構(gòu)建的投入以及在教育、政法、醫(yī)療、智慧城市等重點(diǎn)賽道的市場(chǎng)布局投入??拼笥嶏w高級(jí)副總裁、研究院院長(zhǎng)胡國(guó)平在公開場(chǎng)合表示,科大訊飛在語音識(shí)別錯(cuò)誤率方面每年相對(duì)下降30%以上。
呂昊直言,從數(shù)據(jù)量、入局時(shí)間等角度來看,依圖和BAT、科大訊飛等相差很多量級(jí),但是作為新秀,正是看到市場(chǎng)變動(dòng)慢才覺得有機(jī)會(huì),也是以這種發(fā)布會(huì)的形式讓外界了解語音市場(chǎng)的真實(shí)現(xiàn)狀。
對(duì)于語音開放平臺(tái)發(fā)布之后的場(chǎng)景落地,呂昊表示,眼下依圖并沒有特別針對(duì)某個(gè)場(chǎng)景去發(fā)力,而是先推出普適性的語音開放平臺(tái),走向通用化,方便外界調(diào)動(dòng)API,在不同場(chǎng)景都能實(shí)現(xiàn)工作算法的修改和數(shù)據(jù)的搜集。
值得一提的是,依圖在現(xiàn)場(chǎng)發(fā)布了“聽寫大會(huì)”微信小程序,讓用戶可以在不超過60秒時(shí)間內(nèi)直觀感受到語音識(shí)別技術(shù)的真實(shí)表現(xiàn),在業(yè)界也屬首次,公開透明的體驗(yàn)各類算法的水平差異。
語音識(shí)別技術(shù)近年進(jìn)展
語音市場(chǎng)進(jìn)入新玩家,異?;馃幔鳛橹囟汝P(guān)注AI領(lǐng)域的,也曾梳理了近年來語音識(shí)別技術(shù)發(fā)展基本軌跡:
2017 年 3 月,IBM 結(jié)合了 LSTM 模型和帶有 3 個(gè)強(qiáng)聲學(xué)模型的 WaveNet 語言模型。其中集中擴(kuò)展深度學(xué)習(xí)應(yīng)用技術(shù)終于取得了 5.5% 錯(cuò)詞率的突破。
2017 年 8 月,微軟通過改進(jìn)微軟語音識(shí)別系統(tǒng)中基于神經(jīng)網(wǎng)絡(luò)的聽覺和語言模型,在2016年基礎(chǔ)上降低了大約 12% 的出錯(cuò)率,錯(cuò)詞率為 5.1%。
2017 年 12 月,谷歌發(fā)布全新端到端語音識(shí)別系統(tǒng)(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),錯(cuò)詞率降低至 5.6%。
2018 年 6 月,阿里巴巴達(dá)摩院推出了新一代語音識(shí)別模型 DFSMN,將全球語音識(shí)別準(zhǔn)確率紀(jì)錄提高至 96.04%,錯(cuò)詞率降低至 3.96%。
2018 年 10 月,云從科技發(fā)布全新 Pyramidal-FSMN 語音識(shí)別模型,將錯(cuò)詞率(Worderrorrate,WER)降低至 2.97%,較之前提升了 25%。
當(dāng)然,今天,我們需要記上一筆2018年12月11日依圖的這次語音開放平臺(tái)發(fā)布會(huì)。
站在AI的路口,依圖科技又進(jìn)一步了。