眼下,行業(yè)巨頭都在打造自己的智能語音生態(tài)系統(tǒng),國外有IBM、微軟、Google等,國內(nèi)則有百度、阿里、科大訊飛、搜狗和云知聲。
但這一次,四大AI獨角獸之一的依圖科技也正式拿到入場券了。
12月11日消息,依圖科技今日公布了其在中文語音識別技術(shù)上的最新突破,宣稱在全球最大的中文開源數(shù)據(jù)庫AISHELL-2中,依圖短語音聽寫的字錯率(CER)僅為3.71%,相比原業(yè)內(nèi)領(lǐng)先者提升約20%,大幅刷新現(xiàn)有紀(jì)錄。
此外,依圖科技現(xiàn)場宣布了與微軟Azure和華為的兩大全新合作。
為何此時入局?
對于依圖來說,從計算機視覺進入到語音識別,是一次巨大的跳躍,因為目前行業(yè)巨頭林立,入局者比依圖更早拿到市場份額。
但是依圖首席創(chuàng)新官呂昊博士看來,現(xiàn)在的語音識別技術(shù)發(fā)展還是不夠的,相較于人臉識別的準(zhǔn)確率而言,語音識別發(fā)展目前都比較緩慢,無論是學(xué)術(shù)界還是工業(yè)界,對于語音市場都很看好,這意味著未來發(fā)揮空間十分巨大。
也了解到,語音識別技術(shù)其實幾十年前就在發(fā)展,從50年代的貝爾研究所到八九十年代美國和日本在該技術(shù)上的突破,從軟件到硬件都在取得進展;我國語音識別研究起始于1958年,后來的“863計劃”中語音識別成為重要課題,中國的語音識別技術(shù)開始進入了真正研究階段。
但由于語音的場景復(fù)雜,技術(shù)突破一直處于緩慢的狀態(tài),目前應(yīng)用較好的也只是特定的幾個場景。目前業(yè)內(nèi)一些機構(gòu)已宣傳識別技術(shù)達(dá)到了人類水平,但大多數(shù)情況下都來自安靜、近場等受限環(huán)境下的結(jié)果。而復(fù)雜的場景諸如電話、語音節(jié)目、遠(yuǎn)場、混響、噪聲、口音、語音節(jié)目等,則需要針對性地開發(fā)不同模型。
“但技術(shù)無法束縛我們的想象力?!?/p>
呂昊上任依圖首席創(chuàng)新官近一年時間,去年年底,他辭去了在Google的工作,離開了生活十年的美國,回國加入依圖。他覺得,在語音識別領(lǐng)域,依圖科技是一名新生,但立志扮演創(chuàng)造行業(yè)拐點的角色。
“依圖入局語音市場的初心就是源于好奇心,想用算法技術(shù)推動實際問題的解決。我們在AI領(lǐng)域做了那么多年,已經(jīng)能深入理解和推廣人工智能的應(yīng)用了?!?/p>
可見,作為AI理解世界重要的組成部分,作為人人交互、人機交互最重要的入口,語音識別正在拉伸依圖的AI版圖。
盡管這次官方說法是“首次進入語音行業(yè)”,但實際上,依圖一直都有涉獵這個領(lǐng)域,語音和語義的相關(guān)技術(shù)之前在其醫(yī)療的相關(guān)產(chǎn)品中有過展示,只是沒有公布。
呂昊坦言,科大訊飛做語音技術(shù),的確是業(yè)內(nèi)領(lǐng)先的,但是科大訊飛的語音有多好、和其他語音的距離有多遠(yuǎn)這些方面,其實很難界定——因為不太透明。準(zhǔn)確率上,行業(yè)水平都是98%-99%,在什么情況下測的,大家也無法評判。
實際上,入局語音市場,還有個因素,呂昊也一并告訴了。
“工業(yè)界目前做語音識別的水平已經(jīng)遠(yuǎn)遠(yuǎn)超過學(xué)術(shù)界,在一些公開數(shù)據(jù)集上有著1-3倍的性能提升。而工業(yè)界目前做語音技術(shù)的就那么幾家,靠學(xué)術(shù)界去往前推進商業(yè)模式,似乎沒有可選的路徑,因為數(shù)據(jù)成本非常之高。干脆自己來做?!?/p>
聯(lián)手巨頭:有了華為和微軟,語音市場的入場券拿的更快
這一次,選擇新賽道,依圖并非想做“孤膽英雄”。
因為華為、微軟都選擇和依圖站在了一起。
發(fā)布會現(xiàn)場,依圖宣布聯(lián)合微軟Azure推出依圖語音開放平臺,會向第三方開放,后續(xù)兩家公司將在智能語音領(lǐng)域雙方有新的動作。
此外,依圖還聯(lián)合華為發(fā)布“智能語音聯(lián)合解決方案”,該方案基于依圖語音開放平臺及華為全棧全場景昇騰(Ascend)系列芯片和面向數(shù)據(jù)中心側(cè)的Atlas 300 AI加速卡,也向第三方開放。
“我們始終認(rèn)為,核心技術(shù)的突破,依然是當(dāng)前破局中文語音識別發(fā)展的關(guān)鍵?!眳侮槐硎?。
當(dāng)下,AI產(chǎn)業(yè)鏈由基礎(chǔ)層、技術(shù)層與應(yīng)用層構(gòu)成。同樣,智能語音識別亦由這三層組成?;诖罅繑?shù)據(jù)的積累、深度神經(jīng)網(wǎng)絡(luò)模型的發(fā)展及算法的迭代優(yōu)化,近年,語音識別準(zhǔn)確率取得了不斷的提升,外界也在各個巨頭的測試結(jié)果中觀察到了“媲美人類”、“與人相似”等字眼。
但語音識別領(lǐng)域一直存在兩條紅線:3%和15%。
一般認(rèn)為,字錯率在低于3%時不會影響文字可讀性,而超過15%則毫無可讀性,體驗好感大大降低。在不同場景下,不同算法的表現(xiàn)可能會有很大差異。尤其是中文語音識別技術(shù)領(lǐng)域,漢語的博大精深帶來的同音不同意等問題,更對語音識別的處理難度帶來極大挑戰(zhàn),顯著影響最終的使用體驗。
會上,依圖推出的中文語音識別算法,與業(yè)內(nèi)原有領(lǐng)先者相比準(zhǔn)確率大幅提升。
近期公開的AISHELL-2的三個測試子集,以及來自第三方的近場口音測試集、近場安靜聊天測試集、語音節(jié)目測試集、電話測試集、遠(yuǎn)場測試集中,依圖字錯率幾乎全部在15%以下(未過紅線)。
注:AISHELL-2是AISHELL Foundation和希爾貝殼宣布的開源數(shù)據(jù)庫,數(shù)據(jù)規(guī)模達(dá)1000小時,是目前全球最大的中文開源數(shù)據(jù)庫。它由1991名來自中國不同口音區(qū)域的發(fā)言人參與錄制,經(jīng)過專業(yè)語音校對人員轉(zhuǎn)寫標(biāo)注,通過了嚴(yán)格質(zhì)量檢驗,數(shù)據(jù)庫文本正確率在96%以上。
值得一提的是,在AISHELL2-2018A-EVAL數(shù)據(jù)集中,依圖的識別準(zhǔn)確率高達(dá)96.29%,字錯率(CER)僅為3.71%。
入局超百億美元市場了,依圖覺得自己“還年輕”
智能語音技術(shù)是人工智能應(yīng)用最成熟的技術(shù)之一,并擁有交互的自然性,因而,其具有巨大的市場空間。
中國語音產(chǎn)業(yè)聯(lián)盟《2015中國智能語音產(chǎn)業(yè)發(fā)展白皮書》數(shù)據(jù)顯示,2017年全球智能語音產(chǎn)業(yè)規(guī)模將首次超過百億美元,達(dá)到105億美元。中國2017年智能語音產(chǎn)業(yè)規(guī)模也將首次突破百億元,五年復(fù)合增長率超過60%。
此前,科大訊飛發(fā)布2018年Q3報告,前三季度實現(xiàn)營收52.83億元,同比增長56%,主要由于持續(xù)加大AI相關(guān)領(lǐng)域的研發(fā)投入、生態(tài)體系構(gòu)建的投入以及在教育、政法、醫(yī)療、智慧城市等重點賽道的市場布局投入。科大訊飛高級副總裁、研究院院長胡國平在公開場合表示,科大訊飛在語音識別錯誤率方面每年相對下降30%以上。
呂昊直言,從數(shù)據(jù)量、入局時間等角度來看,依圖和BAT、科大訊飛等相差很多量級,但是作為新秀,正是看到市場變動慢才覺得有機會,也是以這種發(fā)布會的形式讓外界了解語音市場的真實現(xiàn)狀。
對于語音開放平臺發(fā)布之后的場景落地,呂昊表示,眼下依圖并沒有特別針對某個場景去發(fā)力,而是先推出普適性的語音開放平臺,走向通用化,方便外界調(diào)動API,在不同場景都能實現(xiàn)工作算法的修改和數(shù)據(jù)的搜集。
值得一提的是,依圖在現(xiàn)場發(fā)布了“聽寫大會”微信小程序,讓用戶可以在不超過60秒時間內(nèi)直觀感受到語音識別技術(shù)的真實表現(xiàn),在業(yè)界也屬首次,公開透明的體驗各類算法的水平差異。
語音識別技術(shù)近年進展
語音市場進入新玩家,異?;馃?,作為重度關(guān)注AI領(lǐng)域的,也曾梳理了近年來語音識別技術(shù)發(fā)展基本軌跡:
2017 年 3 月,IBM 結(jié)合了 LSTM 模型和帶有 3 個強聲學(xué)模型的 WaveNet 語言模型。其中集中擴展深度學(xué)習(xí)應(yīng)用技術(shù)終于取得了 5.5% 錯詞率的突破。
2017 年 8 月,微軟通過改進微軟語音識別系統(tǒng)中基于神經(jīng)網(wǎng)絡(luò)的聽覺和語言模型,在2016年基礎(chǔ)上降低了大約 12% 的出錯率,錯詞率為 5.1%。
2017 年 12 月,谷歌發(fā)布全新端到端語音識別系統(tǒng)(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),錯詞率降低至 5.6%。
2018 年 6 月,阿里巴巴達(dá)摩院推出了新一代語音識別模型 DFSMN,將全球語音識別準(zhǔn)確率紀(jì)錄提高至 96.04%,錯詞率降低至 3.96%。
2018 年 10 月,云從科技發(fā)布全新 Pyramidal-FSMN 語音識別模型,將錯詞率(Worderrorrate,WER)降低至 2.97%,較之前提升了 25%。
當(dāng)然,今天,我們需要記上一筆2018年12月11日依圖的這次語音開放平臺發(fā)布會。
站在AI的路口,依圖科技又進一步了。