AI之路再進(jìn)一步，依圖科技入局語音識別

時(shí)間：2018-12-17 10:42:04

關(guān)鍵字： AI 科大訊飛語音識別依圖科技

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]眼下，行業(yè)巨頭都在打造自己的智能語音生態(tài)系統(tǒng)，國外有IBM、微軟、Google等，國內(nèi)則有百度、阿里、科大訊飛、搜狗和云知聲。但這一次，四大AI獨(dú)角獸之一的依圖科技也正式拿到入場券了。12月11日消息

眼下，行業(yè)巨頭都在打造自己的智能語音生態(tài)系統(tǒng)，國外有IBM、微軟、Google等，國內(nèi)則有百度、阿里、科大訊飛、搜狗和云知聲。

但這一次，四大AI獨(dú)角獸之一的依圖科技也正式拿到入場券了。

12月11日消息，依圖科技今日公布了其在中文語音識別技術(shù)上的最新突破，宣稱在全球最大的中文開源數(shù)據(jù)庫AISHELL-2中，依圖短語音聽寫的字錯(cuò)率（CER）僅為3.71%，相比原業(yè)內(nèi)領(lǐng)先者提升約20%，大幅刷新現(xiàn)有紀(jì)錄。

此外，依圖科技現(xiàn)場宣布了與微軟Azure和華為的兩大全新合作。

為何此時(shí)入局？

對于依圖來說，從計(jì)算機(jī)視覺進(jìn)入到語音識別，是一次巨大的跳躍，因?yàn)槟壳靶袠I(yè)巨頭林立，入局者比依圖更早拿到市場份額。

但是依圖首席創(chuàng)新官呂昊博士看來，現(xiàn)在的語音識別技術(shù)發(fā)展還是不夠的，相較于人臉識別的準(zhǔn)確率而言，語音識別發(fā)展目前都比較緩慢，無論是學(xué)術(shù)界還是工業(yè)界，對于語音市場都很看好，這意味著未來發(fā)揮空間十分巨大。

也了解到，語音識別技術(shù)其實(shí)幾十年前就在發(fā)展，從50年代的貝爾研究所到八九十年代美國和日本在該技術(shù)上的突破，從軟件到硬件都在取得進(jìn)展；我國語音識別研究起始于1958年，后來的“863計(jì)劃”中語音識別成為重要課題，中國的語音識別技術(shù)開始進(jìn)入了真正研究階段。

但由于語音的場景復(fù)雜，技術(shù)突破一直處于緩慢的狀態(tài)，目前應(yīng)用較好的也只是特定的幾個(gè)場景。目前業(yè)內(nèi)一些機(jī)構(gòu)已宣傳識別技術(shù)達(dá)到了人類水平，但大多數(shù)情況下都來自安靜、近場等受限環(huán)境下的結(jié)果。而復(fù)雜的場景諸如電話、語音節(jié)目、遠(yuǎn)場、混響、噪聲、口音、語音節(jié)目等，則需要針對性地開發(fā)不同模型。

“但技術(shù)無法束縛我們的想象力?！?/p>

呂昊上任依圖首席創(chuàng)新官近一年時(shí)間，去年年底，他辭去了在Google的工作，離開了生活十年的美國，回國加入依圖。他覺得，在語音識別領(lǐng)域，依圖科技是一名新生，但立志扮演創(chuàng)造行業(yè)拐點(diǎn)的角色。

“依圖入局語音市場的初心就是源于好奇心，想用算法技術(shù)推動(dòng)實(shí)際問題的解決。我們在AI領(lǐng)域做了那么多年，已經(jīng)能深入理解和推廣人工智能的應(yīng)用了?！?/p>

可見，作為AI理解世界重要的組成部分，作為人人交互、人機(jī)交互最重要的入口，語音識別正在拉伸依圖的AI版圖。

盡管這次官方說法是“首次進(jìn)入語音行業(yè)”，但實(shí)際上，依圖一直都有涉獵這個(gè)領(lǐng)域，語音和語義的相關(guān)技術(shù)之前在其醫(yī)療的相關(guān)產(chǎn)品中有過展示，只是沒有公布。

呂昊坦言，科大訊飛做語音技術(shù)，的確是業(yè)內(nèi)領(lǐng)先的，但是科大訊飛的語音有多好、和其他語音的距離有多遠(yuǎn)這些方面，其實(shí)很難界定——因?yàn)椴惶该?。?zhǔn)確率上，行業(yè)水平都是98%-99%，在什么情況下測的，大家也無法評判。

實(shí)際上，入局語音市場，還有個(gè)因素，呂昊也一并告訴了。

“工業(yè)界目前做語音識別的水平已經(jīng)遠(yuǎn)遠(yuǎn)超過學(xué)術(shù)界，在一些公開數(shù)據(jù)集上有著1-3倍的性能提升。而工業(yè)界目前做語音技術(shù)的就那么幾家，靠學(xué)術(shù)界去往前推進(jìn)商業(yè)模式，似乎沒有可選的路徑，因?yàn)閿?shù)據(jù)成本非常之高。干脆自己來做。”

聯(lián)手巨頭：有了華為和微軟，語音市場的入場券拿的更快

這一次，選擇新賽道，依圖并非想做“孤膽英雄”。

因?yàn)槿A為、微軟都選擇和依圖站在了一起。

發(fā)布會(huì)現(xiàn)場，依圖宣布聯(lián)合微軟Azure推出依圖語音開放平臺(tái)，會(huì)向第三方開放，后續(xù)兩家公司將在智能語音領(lǐng)域雙方有新的動(dòng)作。

此外，依圖還聯(lián)合華為發(fā)布“智能語音聯(lián)合解決方案”，該方案基于依圖語音開放平臺(tái)及華為全棧全場景昇騰（Ascend）系列芯片和面向數(shù)據(jù)中心側(cè)的Atlas 300 AI加速卡，也向第三方開放。

“我們始終認(rèn)為，核心技術(shù)的突破，依然是當(dāng)前破局中文語音識別發(fā)展的關(guān)鍵?！眳侮槐硎?。

當(dāng)下，AI產(chǎn)業(yè)鏈由基礎(chǔ)層、技術(shù)層與應(yīng)用層構(gòu)成。同樣，智能語音識別亦由這三層組成?；诖罅繑?shù)據(jù)的積累、深度神經(jīng)網(wǎng)絡(luò)模型的發(fā)展及算法的迭代優(yōu)化，近年，語音識別準(zhǔn)確率取得了不斷的提升，外界也在各個(gè)巨頭的測試結(jié)果中觀察到了“媲美人類”、“與人相似”等字眼。

但語音識別領(lǐng)域一直存在兩條紅線：3%和15%。

一般認(rèn)為，字錯(cuò)率在低于3%時(shí)不會(huì)影響文字可讀性，而超過15%則毫無可讀性，體驗(yàn)好感大大降低。在不同場景下，不同算法的表現(xiàn)可能會(huì)有很大差異。尤其是中文語音識別技術(shù)領(lǐng)域，漢語的博大精深帶來的同音不同意等問題，更對語音識別的處理難度帶來極大挑戰(zhàn)，顯著影響最終的使用體驗(yàn)。

會(huì)上，依圖推出的中文語音識別算法，與業(yè)內(nèi)原有領(lǐng)先者相比準(zhǔn)確率大幅提升。

近期公開的AISHELL-2的三個(gè)測試子集，以及來自第三方的近場口音測試集、近場安靜聊天測試集、語音節(jié)目測試集、電話測試集、遠(yuǎn)場測試集中，依圖字錯(cuò)率幾乎全部在15%以下（未過紅線）。

注：AISHELL-2是AISHELL Foundation和希爾貝殼宣布的開源數(shù)據(jù)庫，數(shù)據(jù)規(guī)模達(dá)1000小時(shí)，是目前全球最大的中文開源數(shù)據(jù)庫。它由1991名來自中國不同口音區(qū)域的發(fā)言人參與錄制，經(jīng)過專業(yè)語音校對人員轉(zhuǎn)寫標(biāo)注，通過了嚴(yán)格質(zhì)量檢驗(yàn)，數(shù)據(jù)庫文本正確率在96%以上。

值得一提的是，在AISHELL2-2018A-EVAL數(shù)據(jù)集中，依圖的識別準(zhǔn)確率高達(dá)96.29%，字錯(cuò)率（CER）僅為3.71%。

入局超百億美元市場了，依圖覺得自己“還年輕”

智能語音技術(shù)是人工智能應(yīng)用最成熟的技術(shù)之一，并擁有交互的自然性，因而，其具有巨大的市場空間。

中國語音產(chǎn)業(yè)聯(lián)盟《2015中國智能語音產(chǎn)業(yè)發(fā)展白皮書》數(shù)據(jù)顯示，2017年全球智能語音產(chǎn)業(yè)規(guī)模將首次超過百億美元，達(dá)到105億美元。中國2017年智能語音產(chǎn)業(yè)規(guī)模也將首次突破百億元，五年復(fù)合增長率超過60%。

此前，科大訊飛發(fā)布2018年Q3報(bào)告，前三季度實(shí)現(xiàn)營收52.83億元，同比增長56%，主要由于持續(xù)加大AI相關(guān)領(lǐng)域的研發(fā)投入、生態(tài)體系構(gòu)建的投入以及在教育、政法、醫(yī)療、智慧城市等重點(diǎn)賽道的市場布局投入。科大訊飛高級副總裁、研究院院長胡國平在公開場合表示，科大訊飛在語音識別錯(cuò)誤率方面每年相對下降30%以上。

呂昊直言，從數(shù)據(jù)量、入局時(shí)間等角度來看，依圖和BAT、科大訊飛等相差很多量級，但是作為新秀，正是看到市場變動(dòng)慢才覺得有機(jī)會(huì)，也是以這種發(fā)布會(huì)的形式讓外界了解語音市場的真實(shí)現(xiàn)狀。

對于語音開放平臺(tái)發(fā)布之后的場景落地，呂昊表示，眼下依圖并沒有特別針對某個(gè)場景去發(fā)力，而是先推出普適性的語音開放平臺(tái)，走向通用化，方便外界調(diào)動(dòng)API，在不同場景都能實(shí)現(xiàn)工作算法的修改和數(shù)據(jù)的搜集。

值得一提的是，依圖在現(xiàn)場發(fā)布了“聽寫大會(huì)”微信小程序，讓用戶可以在不超過60秒時(shí)間內(nèi)直觀感受到語音識別技術(shù)的真實(shí)表現(xiàn)，在業(yè)界也屬首次，公開透明的體驗(yàn)各類算法的水平差異。

語音識別技術(shù)近年進(jìn)展

語音市場進(jìn)入新玩家，異常火熱，作為重度關(guān)注AI領(lǐng)域的，也曾梳理了近年來語音識別技術(shù)發(fā)展基本軌跡：

2017 年 3 月，IBM 結(jié)合了 LSTM 模型和帶有 3 個(gè)強(qiáng)聲學(xué)模型的 WaveNet 語言模型。其中集中擴(kuò)展深度學(xué)習(xí)應(yīng)用技術(shù)終于取得了 5.5% 錯(cuò)詞率的突破。

2017 年 8 月，微軟通過改進(jìn)微軟語音識別系統(tǒng)中基于神經(jīng)網(wǎng)絡(luò)的聽覺和語言模型，在2016年基礎(chǔ)上降低了大約 12% 的出錯(cuò)率，錯(cuò)詞率為 5.1%。

2017 年 12 月，谷歌發(fā)布全新端到端語音識別系統(tǒng)（State-of-the-art Speech Recognition With Sequence-to-Sequence Models），錯(cuò)詞率降低至 5.6%。

2018 年 6 月，阿里巴巴達(dá)摩院推出了新一代語音識別模型 DFSMN，將全球語音識別準(zhǔn)確率紀(jì)錄提高至 96.04%，錯(cuò)詞率降低至 3.96%。

2018 年 10 月，云從科技發(fā)布全新 Pyramidal-FSMN 語音識別模型，將錯(cuò)詞率（Worderrorrate，WER）降低至 2.97%，較之前提升了 25%。

當(dāng)然，今天，我們需要記上一筆2018年12月11日依圖的這次語音開放平臺(tái)發(fā)布會(huì)。

站在AI的路口，依圖科技又進(jìn)一步了。