從命令行、圖形界面到觸摸板,再到語音控制,人機交互模式正在發(fā)生著巨大的變化,技術(shù)的發(fā)展給我們帶來很大的方便。然而在如今喧鬧的城市中,尋找一個安靜的環(huán)境是比較困難的,如何在有噪聲的情況下保持良好的通話或者語音識別是工程師不得不面臨的挑戰(zhàn)。
Audience市場拓展部副總裁Robert Schoenfield向21ic記者表示,如今現(xiàn)實世界的噪聲已經(jīng)成為困擾人們的真正難題, Audience一直致力于移動設(shè)備高級語音和音頻處理。作為唯一一家實現(xiàn)聽覺神經(jīng)學產(chǎn)品化的公司,Audience的earSmart™系列智能語音處理器的開發(fā)設(shè)計基于人類產(chǎn)生聽覺的過程,通過抑制背景噪音,使得用戶即使在喧鬧的環(huán)境中也可以獲得良好的移動語音質(zhì)量,可以大大提高用戶的通話質(zhì)量。
記者了解到,earSmart技術(shù)基于人類聽覺系統(tǒng)科學,就像人體擁有兩只耳朵一樣,最新的第三代先進語音技術(shù)采用全球首個三路話筒技術(shù),即可以同時使用三只話筒采集用戶周圍的環(huán)境信息,不須采用任何指向性麥克風,也不需指定特定的麥克風種類,可以有效控制成本;并且因為搭配非指向性麥克風,通話的角度也更不受限制。
此外,第三代earSmart技術(shù)采用了第二代的ASR語音識別輔助技術(shù)。通過硬件加速算法將語音從周圍環(huán)境噪聲中分離出來,較遠距離通話也可保持良好音質(zhì),極大地改善了諸如虛擬助手和語音搜索等語音識別應(yīng)用的用戶體驗。
Schoenfield還透露,Audience將與語音識別軟件商科大訊飛合作,進一步拓展中國移動語音終端市場。
隨著移動互聯(lián)網(wǎng)的迅猛發(fā)展,高級語音服務(wù)遇到了巨大機遇,不論是智能手機、平板、車載設(shè)備還是即將普及的可穿戴設(shè)備,語音識別控制技術(shù)可以讓用戶從觸摸屏中解放雙手,語音識別控制的效率也將更高。在媒體會現(xiàn)場Audience展示了采用earsmart技術(shù)芯片的谷歌Nexus10平板電腦在嘈雜環(huán)境下的訊飛語音輸入,噪聲抑制功能打開,科大訊飛語音輸入文字完全正確。Audience earSmart通過強大的降噪技術(shù)可以更好的輔助輸入純凈清晰地語音信號,從而使得訊飛應(yīng)用更加準確的辨別語音指令內(nèi)容,以做出最準確的回應(yīng)。
值得一提的是,Audience將與中國移動展開合作,共同建立語音實驗室、規(guī)范與測試以及應(yīng)用程序與生態(tài)系統(tǒng)的開發(fā)。Schoenfield補充道,伴隨著移動互聯(lián)時代的帶來,4G LTE網(wǎng)絡(luò)建設(shè)的加快,用戶對于移動設(shè)備的依賴不斷加大,而中國移動擁有超過7億的用戶群體,Audience希望通過移動運營商進行多方位合作,致力于提高用戶的體驗,幫助用戶在周邊非常喧鬧嘈雜的環(huán)境仍能進行清晰的通話及語音識別。