谷歌研發(fā)語音識(shí)別轉(zhuǎn)文字工具Live Transcribe

時(shí)間：2020-05-24 23:09:01

關(guān)鍵字：語音識(shí)別 SCR TRANS 開源

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] （文章來源：中關(guān)村在線）谷歌在其開源博客中宣布開源 Android語音識(shí)別轉(zhuǎn)錄工具——Live Transcribe的語音引擎，它可以將語音或?qū)υ拰?shí)時(shí)轉(zhuǎn)錄為文字，還能夠?yàn)槁犝先耸刻峁?

（文章來源：中關(guān)村在線）

谷歌在其開源博客中宣布開源 Android語音識(shí)別轉(zhuǎn)錄工具——Live Transcribe的語音引擎，它可以將語音或?qū)υ拰?shí)時(shí)轉(zhuǎn)錄為文字，還能夠?yàn)槁犝先耸刻峁椭?/p>

Live Transcribe 是谷歌于今年2月推出的一款A(yù)ndroid應(yīng)用程序，它的語音識(shí)別由谷歌最先進(jìn)的Cloud Speech API提供。但是，依賴于云引入了一些復(fù)雜性，不斷變化的網(wǎng)絡(luò)連接、數(shù)據(jù)成本和延遲等等都帶來一些考驗(yàn)。因此，谷歌把它開源出來，希望開發(fā)人員在已有的基礎(chǔ)上進(jìn)一步構(gòu)建和開發(fā)。

Cloud Speech API目前無法支持無限的音頻流，團(tuán)隊(duì)采取了一些措施來解決這一難題，例如在達(dá)到超時(shí)之前關(guān)閉并重新啟動(dòng)流式傳輸請(qǐng)求，這將有效減少會(huì)話中丟失的文本量。值得一提的是，Live Transcribe支持超過70種語言，并能夠根據(jù)語音自動(dòng)識(shí)別語種，其中也包括中文。

另外，由于是提供實(shí)時(shí)語音轉(zhuǎn)錄，轉(zhuǎn)錄出來的文本會(huì)隨著語音的輸入不斷發(fā)生變化，降低延遲自然十分必要。該引擎能夠大大降低延遲率，這都要?dú)w功于它的自定義Opus編碼器。