IBM宣布語音識別技術(shù)的錯誤率已接近人類

時間：2020-05-19 21:36:01

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀] （文章來源：中關(guān)村在線）據(jù)外媒報道，此前谷歌曾表示他們已經(jīng)在語音識別領(lǐng)域獲得了突破，將錯誤率降低到了30%。不過，最近IBM在他們的官網(wǎng)上宣布，他們已經(jīng)創(chuàng)造了自家語音識別的新紀錄，錯誤

（文章來源：中關(guān)村在線）

據(jù)外媒報道，此前谷歌曾表示他們已經(jīng)在語音識別領(lǐng)域獲得了突破，將錯誤率降低到了30%。不過，最近IBM在他們的官網(wǎng)上宣布，他們已經(jīng)創(chuàng)造了自家語音識別的新紀錄，錯誤率僅為5.5%，與去年的6.9%相比又一次的實現(xiàn)了提升。

這些主要是在非常困難的語音識別任務(wù)中測試得來的，紀錄人與人之間日常對話如“買汽車”，計算出來的結(jié)果。這種紀錄的語料庫被稱為“SWITCHBOARD”，20多年來一直用于檢驗語音識別系統(tǒng)。通過這種數(shù)據(jù)庫還能夠得到5.5%的錯誤率，已經(jīng)是非常難得的了。

此前，谷歌高級研究員杰夫·迪恩(Jeff Dean)日前在人工智能前沿峰會(AI Frontiers)上表示，自2012年以來，谷歌已經(jīng)把語音識別的詞錯率(WER)降低了30%以上。詞錯率指的是谷歌將一個詞語從語音轉(zhuǎn)錄成為文字時的錯誤率。

迪恩稱，詞錯率的下降得益于神經(jīng)網(wǎng)絡(luò)的使用，后者是谷歌和其他公司在深度學(xué)習(xí)中使用的一種系統(tǒng)。研究人員使用大量數(shù)據(jù)對神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練，例如語音片段，然后讓他們對新數(shù)據(jù)作出推斷。谷歌在2012年首次將神經(jīng)網(wǎng)絡(luò)用于語音識別中，當(dāng)時正值“果凍豆”Android系統(tǒng)發(fā)布。谷歌并不是經(jīng)常討論公司在語音識別技術(shù)上取得的進展，該技術(shù)影響著越來越多的谷歌產(chǎn)品，從Google Home智能音箱到Gboard輸入法。