當(dāng)前位置:首頁 > 芯聞號(hào) > 充電吧
[導(dǎo)讀]眼下,行業(yè)巨頭都在打造自己的智能語音生態(tài)系統(tǒng),國(guó)外有IBM、微軟、Google等,國(guó)內(nèi)則有百度、阿里、科大訊飛、搜狗和云知聲。但這一次,四大AI獨(dú)角獸之一的依圖科技也正式拿到入場(chǎng)券了。12月11日消息

眼下,行業(yè)巨頭都在打造自己的智能語音生態(tài)系統(tǒng),國(guó)外有IBM、微軟、Google等,國(guó)內(nèi)則有百度、阿里、科大訊飛、搜狗和云知聲。

但這一次,四大AI獨(dú)角獸之一的依圖科技也正式拿到入場(chǎng)券了。

12月11日消息,依圖科技今日公布了其在中文語音識(shí)別技術(shù)上的最新突破,宣稱在全球最大的中文開源數(shù)據(jù)庫AISHELL-2中,依圖短語音聽寫的字錯(cuò)率(CER)僅為3.71%,相比原業(yè)內(nèi)領(lǐng)先者提升約20%,大幅刷新現(xiàn)有紀(jì)錄。

此外,依圖科技現(xiàn)場(chǎng)宣布了與微軟Azure和華為的兩大全新合作。

為何此時(shí)入局?

對(duì)于依圖來說,從計(jì)算機(jī)視覺進(jìn)入到語音識(shí)別,是一次巨大的跳躍,因?yàn)槟壳靶袠I(yè)巨頭林立,入局者比依圖更早拿到市場(chǎng)份額。

但是依圖首席創(chuàng)新官呂昊博士看來,現(xiàn)在的語音識(shí)別技術(shù)發(fā)展還是不夠的,相較于人臉識(shí)別的準(zhǔn)確率而言,語音識(shí)別發(fā)展目前都比較緩慢,無論是學(xué)術(shù)界還是工業(yè)界,對(duì)于語音市場(chǎng)都很看好,這意味著未來發(fā)揮空間十分巨大。

也了解到,語音識(shí)別技術(shù)其實(shí)幾十年前就在發(fā)展,從50年代的貝爾研究所到八九十年代美國(guó)和日本在該技術(shù)上的突破,從軟件到硬件都在取得進(jìn)展;我國(guó)語音識(shí)別研究起始于1958年,后來的“863計(jì)劃”中語音識(shí)別成為重要課題,中國(guó)的語音識(shí)別技術(shù)開始進(jìn)入了真正研究階段。

但由于語音的場(chǎng)景復(fù)雜,技術(shù)突破一直處于緩慢的狀態(tài),目前應(yīng)用較好的也只是特定的幾個(gè)場(chǎng)景。目前業(yè)內(nèi)一些機(jī)構(gòu)已宣傳識(shí)別技術(shù)達(dá)到了人類水平,但大多數(shù)情況下都來自安靜、近場(chǎng)等受限環(huán)境下的結(jié)果。而復(fù)雜的場(chǎng)景諸如電話、語音節(jié)目、遠(yuǎn)場(chǎng)、混響、噪聲、口音、語音節(jié)目等,則需要針對(duì)性地開發(fā)不同模型。

“但技術(shù)無法束縛我們的想象力?!?/p>

呂昊上任依圖首席創(chuàng)新官近一年時(shí)間,去年年底,他辭去了在Google的工作,離開了生活十年的美國(guó),回國(guó)加入依圖。他覺得,在語音識(shí)別領(lǐng)域,依圖科技是一名新生,但立志扮演創(chuàng)造行業(yè)拐點(diǎn)的角色。

“依圖入局語音市場(chǎng)的初心就是源于好奇心,想用算法技術(shù)推動(dòng)實(shí)際問題的解決。我們?cè)贏I領(lǐng)域做了那么多年,已經(jīng)能深入理解和推廣人工智能的應(yīng)用了?!?/p>

可見,作為AI理解世界重要的組成部分,作為人人交互、人機(jī)交互最重要的入口,語音識(shí)別正在拉伸依圖的AI版圖。

盡管這次官方說法是“首次進(jìn)入語音行業(yè)”,但實(shí)際上,依圖一直都有涉獵這個(gè)領(lǐng)域,語音和語義的相關(guān)技術(shù)之前在其醫(yī)療的相關(guān)產(chǎn)品中有過展示,只是沒有公布。

呂昊坦言,科大訊飛做語音技術(shù),的確是業(yè)內(nèi)領(lǐng)先的,但是科大訊飛的語音有多好、和其他語音的距離有多遠(yuǎn)這些方面,其實(shí)很難界定——因?yàn)椴惶该鳌?zhǔn)確率上,行業(yè)水平都是98%-99%,在什么情況下測(cè)的,大家也無法評(píng)判。

實(shí)際上,入局語音市場(chǎng),還有個(gè)因素,呂昊也一并告訴了。

“工業(yè)界目前做語音識(shí)別的水平已經(jīng)遠(yuǎn)遠(yuǎn)超過學(xué)術(shù)界,在一些公開數(shù)據(jù)集上有著1-3倍的性能提升。而工業(yè)界目前做語音技術(shù)的就那么幾家,靠學(xué)術(shù)界去往前推進(jìn)商業(yè)模式,似乎沒有可選的路徑,因?yàn)閿?shù)據(jù)成本非常之高。干脆自己來做?!?/p>

聯(lián)手巨頭:有了華為和微軟,語音市場(chǎng)的入場(chǎng)券拿的更快

這一次,選擇新賽道,依圖并非想做“孤膽英雄”。

因?yàn)槿A為、微軟都選擇和依圖站在了一起。

發(fā)布會(huì)現(xiàn)場(chǎng),依圖宣布聯(lián)合微軟Azure推出依圖語音開放平臺(tái),會(huì)向第三方開放,后續(xù)兩家公司將在智能語音領(lǐng)域雙方有新的動(dòng)作。

此外,依圖還聯(lián)合華為發(fā)布“智能語音聯(lián)合解決方案”,該方案基于依圖語音開放平臺(tái)及華為全棧全場(chǎng)景昇騰(Ascend)系列芯片和面向數(shù)據(jù)中心側(cè)的Atlas 300 AI加速卡,也向第三方開放。

“我們始終認(rèn)為,核心技術(shù)的突破,依然是當(dāng)前破局中文語音識(shí)別發(fā)展的關(guān)鍵?!眳侮槐硎?。

當(dāng)下,AI產(chǎn)業(yè)鏈由基礎(chǔ)層、技術(shù)層與應(yīng)用層構(gòu)成。同樣,智能語音識(shí)別亦由這三層組成。基于大量數(shù)據(jù)的積累、深度神經(jīng)網(wǎng)絡(luò)模型的發(fā)展及算法的迭代優(yōu)化,近年,語音識(shí)別準(zhǔn)確率取得了不斷的提升,外界也在各個(gè)巨頭的測(cè)試結(jié)果中觀察到了“媲美人類”、“與人相似”等字眼。

但語音識(shí)別領(lǐng)域一直存在兩條紅線:3%和15%。

一般認(rèn)為,字錯(cuò)率在低于3%時(shí)不會(huì)影響文字可讀性,而超過15%則毫無可讀性,體驗(yàn)好感大大降低。在不同場(chǎng)景下,不同算法的表現(xiàn)可能會(huì)有很大差異。尤其是中文語音識(shí)別技術(shù)領(lǐng)域,漢語的博大精深帶來的同音不同意等問題,更對(duì)語音識(shí)別的處理難度帶來極大挑戰(zhàn),顯著影響最終的使用體驗(yàn)。

會(huì)上,依圖推出的中文語音識(shí)別算法,與業(yè)內(nèi)原有領(lǐng)先者相比準(zhǔn)確率大幅提升。

近期公開的AISHELL-2的三個(gè)測(cè)試子集,以及來自第三方的近場(chǎng)口音測(cè)試集、近場(chǎng)安靜聊天測(cè)試集、語音節(jié)目測(cè)試集、電話測(cè)試集、遠(yuǎn)場(chǎng)測(cè)試集中,依圖字錯(cuò)率幾乎全部在15%以下(未過紅線)。

注:AISHELL-2是AISHELL Foundation和希爾貝殼宣布的開源數(shù)據(jù)庫,數(shù)據(jù)規(guī)模達(dá)1000小時(shí),是目前全球最大的中文開源數(shù)據(jù)庫。它由1991名來自中國(guó)不同口音區(qū)域的發(fā)言人參與錄制,經(jīng)過專業(yè)語音校對(duì)人員轉(zhuǎn)寫標(biāo)注,通過了嚴(yán)格質(zhì)量檢驗(yàn),數(shù)據(jù)庫文本正確率在96%以上。

值得一提的是,在AISHELL2-2018A-EVAL數(shù)據(jù)集中,依圖的識(shí)別準(zhǔn)確率高達(dá)96.29%,字錯(cuò)率(CER)僅為3.71%。

入局超百億美元市場(chǎng)了,依圖覺得自己“還年輕”

智能語音技術(shù)是人工智能應(yīng)用最成熟的技術(shù)之一,并擁有交互的自然性,因而,其具有巨大的市場(chǎng)空間。

中國(guó)語音產(chǎn)業(yè)聯(lián)盟《2015中國(guó)智能語音產(chǎn)業(yè)發(fā)展白皮書》數(shù)據(jù)顯示,2017年全球智能語音產(chǎn)業(yè)規(guī)模將首次超過百億美元,達(dá)到105億美元。中國(guó)2017年智能語音產(chǎn)業(yè)規(guī)模也將首次突破百億元,五年復(fù)合增長(zhǎng)率超過60%。

此前,科大訊飛發(fā)布2018年Q3報(bào)告,前三季度實(shí)現(xiàn)營(yíng)收52.83億元,同比增長(zhǎng)56%,主要由于持續(xù)加大AI相關(guān)領(lǐng)域的研發(fā)投入、生態(tài)體系構(gòu)建的投入以及在教育、政法、醫(yī)療、智慧城市等重點(diǎn)賽道的市場(chǎng)布局投入??拼笥嶏w高級(jí)副總裁、研究院院長(zhǎng)胡國(guó)平在公開場(chǎng)合表示,科大訊飛在語音識(shí)別錯(cuò)誤率方面每年相對(duì)下降30%以上。

呂昊直言,從數(shù)據(jù)量、入局時(shí)間等角度來看,依圖和BAT、科大訊飛等相差很多量級(jí),但是作為新秀,正是看到市場(chǎng)變動(dòng)慢才覺得有機(jī)會(huì),也是以這種發(fā)布會(huì)的形式讓外界了解語音市場(chǎng)的真實(shí)現(xiàn)狀。

對(duì)于語音開放平臺(tái)發(fā)布之后的場(chǎng)景落地,呂昊表示,眼下依圖并沒有特別針對(duì)某個(gè)場(chǎng)景去發(fā)力,而是先推出普適性的語音開放平臺(tái),走向通用化,方便外界調(diào)動(dòng)API,在不同場(chǎng)景都能實(shí)現(xiàn)工作算法的修改和數(shù)據(jù)的搜集。

值得一提的是,依圖在現(xiàn)場(chǎng)發(fā)布了“聽寫大會(huì)”微信小程序,讓用戶可以在不超過60秒時(shí)間內(nèi)直觀感受到語音識(shí)別技術(shù)的真實(shí)表現(xiàn),在業(yè)界也屬首次,公開透明的體驗(yàn)各類算法的水平差異。

語音識(shí)別技術(shù)近年進(jìn)展

語音市場(chǎng)進(jìn)入新玩家,異?;馃幔鳛橹囟汝P(guān)注AI領(lǐng)域的,也曾梳理了近年來語音識(shí)別技術(shù)發(fā)展基本軌跡:

2017 年 3 月,IBM 結(jié)合了 LSTM 模型和帶有 3 個(gè)強(qiáng)聲學(xué)模型的 WaveNet 語言模型。其中集中擴(kuò)展深度學(xué)習(xí)應(yīng)用技術(shù)終于取得了 5.5% 錯(cuò)詞率的突破。

2017 年 8 月,微軟通過改進(jìn)微軟語音識(shí)別系統(tǒng)中基于神經(jīng)網(wǎng)絡(luò)的聽覺和語言模型,在2016年基礎(chǔ)上降低了大約 12% 的出錯(cuò)率,錯(cuò)詞率為 5.1%。

2017 年 12 月,谷歌發(fā)布全新端到端語音識(shí)別系統(tǒng)(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),錯(cuò)詞率降低至 5.6%。

2018 年 6 月,阿里巴巴達(dá)摩院推出了新一代語音識(shí)別模型 DFSMN,將全球語音識(shí)別準(zhǔn)確率紀(jì)錄提高至 96.04%,錯(cuò)詞率降低至 3.96%。

2018 年 10 月,云從科技發(fā)布全新 Pyramidal-FSMN 語音識(shí)別模型,將錯(cuò)詞率(Worderrorrate,WER)降低至 2.97%,較之前提升了 25%。

當(dāng)然,今天,我們需要記上一筆2018年12月11日依圖的這次語音開放平臺(tái)發(fā)布會(huì)。

站在AI的路口,依圖科技又進(jìn)一步了。


本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉