谷歌Live Transcribe語音識別技術可轉文字

時間：2020-05-26 07:09:01

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] 谷歌在其開源博客中宣布開源 Android語音識別轉錄工具——Live Transcribe的語音引擎，它可以將語音或對話實時轉錄為文字，還能夠為聽障人士提供幫助。 Live

谷歌在其開源博客中宣布開源 Android語音識別轉錄工具——Live Transcribe的語音引擎，它可以將語音或對話實時轉錄為文字，還能夠為聽障人士提供幫助。

Live Transcribe 是谷歌于今年2月推出的一款Android應用程序，它的語音識別由谷歌最先進的Cloud Speech API提供。但是，依賴于云引入了一些復雜性，不斷變化的網(wǎng)絡連接、數(shù)據(jù)成本和延遲等等都帶來一些考驗。因此，谷歌把它開源出來，希望開發(fā)人員在已有的基礎上進一步構建和開發(fā)。

Cloud Speech API目前無法支持無限的音頻流，團隊采取了一些措施來解決這一難題，例如在達到超時之前關閉并重新啟動流式傳輸請求，這將有效減少會話中丟失的文本量。值得一提的是，Live Transcribe支持超過70種語言，并能夠根據(jù)語音自動識別語種，其中也包括中文。

另外，由于是提供實時語音轉錄，轉錄出來的文本會隨著語音的輸入不斷發(fā)生變化，降低延遲自然十分必要。該引擎能夠大大降低延遲率，這都要歸功于它的自定義Opus編碼器。