互聯(lián)網(wǎng)巨頭AI領(lǐng)域混戰(zhàn),語(yǔ)音技術(shù)為何成重頭戲?
互聯(lián)網(wǎng)的下半場(chǎng),多家巨頭公司將目光瞄準(zhǔn)了人工智能( AI ),更準(zhǔn)確的說法是,人工智能領(lǐng)域的語(yǔ)音識(shí)別技術(shù)。
錘子 M1 手機(jī)發(fā)布會(huì)上,科大訊飛快速精準(zhǔn)的語(yǔ)音轉(zhuǎn)換文字功能,讓普通大眾對(duì)語(yǔ)音識(shí)別技術(shù)有了直觀的深刻印象。
今年的云棲大會(huì)杭州主會(huì)場(chǎng)與其他一些分會(huì)場(chǎng)上,阿里云的“小 AI”機(jī)器人即時(shí)文字傳譯功能暗示,機(jī)器人要來?yè)屚晜髯g的飯碗了。
無獨(dú)有偶,第三屆世界互聯(lián)網(wǎng)大會(huì)上,搜狗也推出了實(shí)時(shí)機(jī)器翻譯產(chǎn)品,這款產(chǎn)品不僅能很快將搜狗 CEO 王小川的演講轉(zhuǎn)化為文字,而且還做出英文翻譯。或許未來,語(yǔ)音識(shí)別技術(shù)真的會(huì)讓現(xiàn)場(chǎng)的同聲翻譯失業(yè)。
▲ 搜狗 CEO 王小川展示語(yǔ)音實(shí)時(shí)翻譯技術(shù)(Source:搜狗手機(jī)輸入法微博)
11 月 22 日,百度宣布開放四項(xiàng)全新語(yǔ)音技術(shù)接口,分別是情感合成、遠(yuǎn)場(chǎng)方案、喚醒二期技術(shù)與長(zhǎng)語(yǔ)音方案。百度指出,這些技術(shù)有很大的潛力,旨在解決人們使用語(yǔ)音識(shí)別技術(shù)時(shí)普遍感到困擾的問題。
比如遠(yuǎn)場(chǎng)方案可將語(yǔ)音識(shí)別的范圍提高至 3 到 5 米,上??系禄炫灥甑?ldquo;小度機(jī)器人”使用這項(xiàng)技術(shù)后,可遠(yuǎn)距離隨時(shí)應(yīng)答。又比如情感合成,它能給合成語(yǔ)音加入情感,從而達(dá)到真人發(fā)聲的效果。
上述互聯(lián)網(wǎng)巨頭們,盡管發(fā)力 AI 的側(cè)重點(diǎn)不同,但都極為倚靠語(yǔ)音識(shí)別技術(shù),這是因?yàn)檎Z(yǔ)音識(shí)別是最方便的人機(jī)交互方式,是人工智能的重要入口。百度公司首席科學(xué)家吳恩達(dá)就在語(yǔ)音識(shí)別技術(shù)取得新突破后,自信對(duì)媒體表示,“我們已經(jīng)站在人工智能的黎明”。
語(yǔ)音識(shí)別技術(shù)包含兩個(gè)層面,一是將語(yǔ)音進(jìn)行文字傳譯;二是將語(yǔ)音信號(hào)轉(zhuǎn)換為命令,從而操控機(jī)器人運(yùn)行。目前來看,語(yǔ)音文字傳譯方面已經(jīng)取得了很好的成績(jī),有的公司語(yǔ)音輸入準(zhǔn)確率已經(jīng)達(dá)到 97 %的水平,搜狗的語(yǔ)音翻譯方面,準(zhǔn)確率也已達(dá)到 90 %。
接下來,互聯(lián)網(wǎng)公司需要提高的是語(yǔ)音指令,比如提高機(jī)器識(shí)別語(yǔ)音的速度,并作出準(zhǔn)確的動(dòng)作等。