當(dāng)前位置:首頁 > 芯聞號 > 充電吧
[導(dǎo)讀]眼下,行業(yè)巨頭都在打造自己的智能語音生態(tài)系統(tǒng),國外有IBM、微軟、Google等,國內(nèi)則有百度、阿里、科大訊飛、搜狗和云知聲。但這一次,四大AI獨角獸之一的依圖科技也正式拿到入場券了。12月11日消息

眼下,行業(yè)巨頭都在打造自己的智能語音生態(tài)系統(tǒng),國外有IBM、微軟、Google等,國內(nèi)則有百度、阿里、科大訊飛、搜狗和云知聲。

但這一次,四大AI獨角獸之一的依圖科技也正式拿到入場券了。

12月11日消息,依圖科技今日公布了其在中文語音識別技術(shù)上的最新突破,宣稱在全球最大的中文開源數(shù)據(jù)庫AISHELL-2中,依圖短語音聽寫的字錯率(CER)僅為3.71%,相比原業(yè)內(nèi)領(lǐng)先者提升約20%,大幅刷新現(xiàn)有紀(jì)錄。

此外,依圖科技現(xiàn)場宣布了與微軟Azure和華為的兩大全新合作。

為何此時入局?

對于依圖來說,從計算機視覺進入到語音識別,是一次巨大的跳躍,因為目前行業(yè)巨頭林立,入局者比依圖更早拿到市場份額。

但是依圖首席創(chuàng)新官呂昊博士看來,現(xiàn)在的語音識別技術(shù)發(fā)展還是不夠的,相較于人臉識別的準(zhǔn)確率而言,語音識別發(fā)展目前都比較緩慢,無論是學(xué)術(shù)界還是工業(yè)界,對于語音市場都很看好,這意味著未來發(fā)揮空間十分巨大。

也了解到,語音識別技術(shù)其實幾十年前就在發(fā)展,從50年代的貝爾研究所到八九十年代美國和日本在該技術(shù)上的突破,從軟件到硬件都在取得進展;我國語音識別研究起始于1958年,后來的“863計劃”中語音識別成為重要課題,中國的語音識別技術(shù)開始進入了真正研究階段。

但由于語音的場景復(fù)雜,技術(shù)突破一直處于緩慢的狀態(tài),目前應(yīng)用較好的也只是特定的幾個場景。目前業(yè)內(nèi)一些機構(gòu)已宣傳識別技術(shù)達(dá)到了人類水平,但大多數(shù)情況下都來自安靜、近場等受限環(huán)境下的結(jié)果。而復(fù)雜的場景諸如電話、語音節(jié)目、遠(yuǎn)場、混響、噪聲、口音、語音節(jié)目等,則需要針對性地開發(fā)不同模型。

“但技術(shù)無法束縛我們的想象力?!?/p>

呂昊上任依圖首席創(chuàng)新官近一年時間,去年年底,他辭去了在Google的工作,離開了生活十年的美國,回國加入依圖。他覺得,在語音識別領(lǐng)域,依圖科技是一名新生,但立志扮演創(chuàng)造行業(yè)拐點的角色。

“依圖入局語音市場的初心就是源于好奇心,想用算法技術(shù)推動實際問題的解決。我們在AI領(lǐng)域做了那么多年,已經(jīng)能深入理解和推廣人工智能的應(yīng)用了?!?/p>

可見,作為AI理解世界重要的組成部分,作為人人交互、人機交互最重要的入口,語音識別正在拉伸依圖的AI版圖。

盡管這次官方說法是“首次進入語音行業(yè)”,但實際上,依圖一直都有涉獵這個領(lǐng)域,語音和語義的相關(guān)技術(shù)之前在其醫(yī)療的相關(guān)產(chǎn)品中有過展示,只是沒有公布。

呂昊坦言,科大訊飛做語音技術(shù),的確是業(yè)內(nèi)領(lǐng)先的,但是科大訊飛的語音有多好、和其他語音的距離有多遠(yuǎn)這些方面,其實很難界定——因為不太透明。準(zhǔn)確率上,行業(yè)水平都是98%-99%,在什么情況下測的,大家也無法評判。

實際上,入局語音市場,還有個因素,呂昊也一并告訴了。

“工業(yè)界目前做語音識別的水平已經(jīng)遠(yuǎn)遠(yuǎn)超過學(xué)術(shù)界,在一些公開數(shù)據(jù)集上有著1-3倍的性能提升。而工業(yè)界目前做語音技術(shù)的就那么幾家,靠學(xué)術(shù)界去往前推進商業(yè)模式,似乎沒有可選的路徑,因為數(shù)據(jù)成本非常之高。干脆自己來做?!?/p>

聯(lián)手巨頭:有了華為和微軟,語音市場的入場券拿的更快

這一次,選擇新賽道,依圖并非想做“孤膽英雄”。

因為華為、微軟都選擇和依圖站在了一起。

發(fā)布會現(xiàn)場,依圖宣布聯(lián)合微軟Azure推出依圖語音開放平臺,會向第三方開放,后續(xù)兩家公司將在智能語音領(lǐng)域雙方有新的動作。

此外,依圖還聯(lián)合華為發(fā)布“智能語音聯(lián)合解決方案”,該方案基于依圖語音開放平臺及華為全棧全場景昇騰(Ascend)系列芯片和面向數(shù)據(jù)中心側(cè)的Atlas 300 AI加速卡,也向第三方開放。

“我們始終認(rèn)為,核心技術(shù)的突破,依然是當(dāng)前破局中文語音識別發(fā)展的關(guān)鍵?!眳侮槐硎?。

當(dāng)下,AI產(chǎn)業(yè)鏈由基礎(chǔ)層、技術(shù)層與應(yīng)用層構(gòu)成。同樣,智能語音識別亦由這三層組成?;诖罅繑?shù)據(jù)的積累、深度神經(jīng)網(wǎng)絡(luò)模型的發(fā)展及算法的迭代優(yōu)化,近年,語音識別準(zhǔn)確率取得了不斷的提升,外界也在各個巨頭的測試結(jié)果中觀察到了“媲美人類”、“與人相似”等字眼。

但語音識別領(lǐng)域一直存在兩條紅線:3%和15%。

一般認(rèn)為,字錯率在低于3%時不會影響文字可讀性,而超過15%則毫無可讀性,體驗好感大大降低。在不同場景下,不同算法的表現(xiàn)可能會有很大差異。尤其是中文語音識別技術(shù)領(lǐng)域,漢語的博大精深帶來的同音不同意等問題,更對語音識別的處理難度帶來極大挑戰(zhàn),顯著影響最終的使用體驗。

會上,依圖推出的中文語音識別算法,與業(yè)內(nèi)原有領(lǐng)先者相比準(zhǔn)確率大幅提升。

近期公開的AISHELL-2的三個測試子集,以及來自第三方的近場口音測試集、近場安靜聊天測試集、語音節(jié)目測試集、電話測試集、遠(yuǎn)場測試集中,依圖字錯率幾乎全部在15%以下(未過紅線)。

注:AISHELL-2是AISHELL Foundation和希爾貝殼宣布的開源數(shù)據(jù)庫,數(shù)據(jù)規(guī)模達(dá)1000小時,是目前全球最大的中文開源數(shù)據(jù)庫。它由1991名來自中國不同口音區(qū)域的發(fā)言人參與錄制,經(jīng)過專業(yè)語音校對人員轉(zhuǎn)寫標(biāo)注,通過了嚴(yán)格質(zhì)量檢驗,數(shù)據(jù)庫文本正確率在96%以上。

值得一提的是,在AISHELL2-2018A-EVAL數(shù)據(jù)集中,依圖的識別準(zhǔn)確率高達(dá)96.29%,字錯率(CER)僅為3.71%。

入局超百億美元市場了,依圖覺得自己“還年輕”

智能語音技術(shù)是人工智能應(yīng)用最成熟的技術(shù)之一,并擁有交互的自然性,因而,其具有巨大的市場空間。

中國語音產(chǎn)業(yè)聯(lián)盟《2015中國智能語音產(chǎn)業(yè)發(fā)展白皮書》數(shù)據(jù)顯示,2017年全球智能語音產(chǎn)業(yè)規(guī)模將首次超過百億美元,達(dá)到105億美元。中國2017年智能語音產(chǎn)業(yè)規(guī)模也將首次突破百億元,五年復(fù)合增長率超過60%。

此前,科大訊飛發(fā)布2018年Q3報告,前三季度實現(xiàn)營收52.83億元,同比增長56%,主要由于持續(xù)加大AI相關(guān)領(lǐng)域的研發(fā)投入、生態(tài)體系構(gòu)建的投入以及在教育、政法、醫(yī)療、智慧城市等重點賽道的市場布局投入。科大訊飛高級副總裁、研究院院長胡國平在公開場合表示,科大訊飛在語音識別錯誤率方面每年相對下降30%以上。

呂昊直言,從數(shù)據(jù)量、入局時間等角度來看,依圖和BAT、科大訊飛等相差很多量級,但是作為新秀,正是看到市場變動慢才覺得有機會,也是以這種發(fā)布會的形式讓外界了解語音市場的真實現(xiàn)狀。

對于語音開放平臺發(fā)布之后的場景落地,呂昊表示,眼下依圖并沒有特別針對某個場景去發(fā)力,而是先推出普適性的語音開放平臺,走向通用化,方便外界調(diào)動API,在不同場景都能實現(xiàn)工作算法的修改和數(shù)據(jù)的搜集。

值得一提的是,依圖在現(xiàn)場發(fā)布了“聽寫大會”微信小程序,讓用戶可以在不超過60秒時間內(nèi)直觀感受到語音識別技術(shù)的真實表現(xiàn),在業(yè)界也屬首次,公開透明的體驗各類算法的水平差異。

語音識別技術(shù)近年進展

語音市場進入新玩家,異?;馃?,作為重度關(guān)注AI領(lǐng)域的,也曾梳理了近年來語音識別技術(shù)發(fā)展基本軌跡:

2017 年 3 月,IBM 結(jié)合了 LSTM 模型和帶有 3 個強聲學(xué)模型的 WaveNet 語言模型。其中集中擴展深度學(xué)習(xí)應(yīng)用技術(shù)終于取得了 5.5% 錯詞率的突破。

2017 年 8 月,微軟通過改進微軟語音識別系統(tǒng)中基于神經(jīng)網(wǎng)絡(luò)的聽覺和語言模型,在2016年基礎(chǔ)上降低了大約 12% 的出錯率,錯詞率為 5.1%。

2017 年 12 月,谷歌發(fā)布全新端到端語音識別系統(tǒng)(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),錯詞率降低至 5.6%。

2018 年 6 月,阿里巴巴達(dá)摩院推出了新一代語音識別模型 DFSMN,將全球語音識別準(zhǔn)確率紀(jì)錄提高至 96.04%,錯詞率降低至 3.96%。

2018 年 10 月,云從科技發(fā)布全新 Pyramidal-FSMN 語音識別模型,將錯詞率(Worderrorrate,WER)降低至 2.97%,較之前提升了 25%。

當(dāng)然,今天,我們需要記上一筆2018年12月11日依圖的這次語音開放平臺發(fā)布會。

站在AI的路口,依圖科技又進一步了。


本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉