Siri引領(lǐng)語(yǔ)音識(shí)別技術(shù)成熟
掃描二維碼
隨時(shí)隨地手機(jī)看文章
一位男子在電腦前坐下,然后輕聲說(shuō)道:“計(jì)算機(jī)”。然而電腦并未作出任何反應(yīng),該男子對(duì)這電腦又說(shuō)了一遍:“計(jì)算機(jī)”,還是沒有反應(yīng)。旁邊的人已經(jīng)沒有耐心,對(duì)他說(shuō):“用用鍵盤”。該男子回應(yīng)道:“鍵盤?真奇怪。”
以上場(chǎng)景出自1986年電影《星艦迷航記4》,工程師斯庫(kù)提(Scotty)以及其他船員從23世紀(jì)穿越回地球。斯庫(kù)提需要使用電腦完成一些工作,要知道他們?cè)?3世紀(jì)時(shí)全部使用的是語(yǔ)音命令,而不是上世紀(jì)80年代那樣的復(fù)古操作。
如果上述電影場(chǎng)景發(fā)生在35年之后,也就是現(xiàn)在,斯庫(kù)提仍舊會(huì)對(duì)電腦的毫無(wú)反應(yīng)感到困惑。除非他拿起一款最新智能機(jī),該智能機(jī)可以對(duì)人類聲音做出回應(yīng),并成為了最新潮的人機(jī)互動(dòng)方式,它就是iPhone 4S。
iPhone 4S
自從iPhone 4S十月份上市以來(lái),人們開始購(gòu)買并使用蘋果新手機(jī)的Siri功能。Siri是一項(xiàng)語(yǔ)音導(dǎo)航助手,可以接收語(yǔ)音命令,確定或取消約會(huì),發(fā)送郵件,電話呼叫,網(wǎng)絡(luò)搜索。它能夠完成秘書所做到的一切。
Siri并不只是一項(xiàng)語(yǔ)音識(shí)別工具,它可以將語(yǔ)音轉(zhuǎn)化成文本,并以電郵或短信的方式發(fā)送出去。Siri可以對(duì)天氣情況進(jìn)行預(yù)測(cè),進(jìn)行匯率轉(zhuǎn)換或提供股票價(jià)格,并對(duì)天氣現(xiàn)象進(jìn)行解釋。
很多人認(rèn)為Siri并不是一項(xiàng)新技術(shù),我們多年前就可以進(jìn)行語(yǔ)音電話呼叫,谷歌也已經(jīng)提供了語(yǔ)音搜索應(yīng)用。但是專家稱,Siri可能代表的是一種更加精細(xì)的技術(shù)革命,就像iPhone在2007年1月推出時(shí)的多點(diǎn)觸摸屏。它不僅能進(jìn)行語(yǔ)音呼叫和語(yǔ)音識(shí)別,還可以將語(yǔ)音轉(zhuǎn)化為文本,也就是“自然語(yǔ)言理解”(NLU)。
NLU
NLU連同圖像識(shí)別、智能機(jī)器是多年來(lái)一直未能解決的計(jì)算問(wèn)題,不過(guò)現(xiàn)在我們可以讓機(jī)器強(qiáng)大到足以理解我們所說(shuō)的話。NLU技術(shù)面臨的第一個(gè)挑戰(zhàn)就是語(yǔ)音向文本轉(zhuǎn)換的復(fù)雜性,發(fā)音的類似將導(dǎo)致處理結(jié)果的不同。其次,機(jī)器需要理解字面信息和畫外音。
IBM超級(jí)電腦沃森(Watson)今年2月震驚世界,它此前參加了智力競(jìng)賽節(jié)目Jeopardy,并與Jeopardy兩位冠軍進(jìn)行PK。IBM工程師表示,參見Jeopardy節(jié)目肯定不是沃森的最終目標(biāo),它展示的是此前電腦從未展示的能力,并與擁有廣泛知識(shí)詞匯的人類進(jìn)行互動(dòng)。
沃森現(xiàn)在開始著手解決人類健康問(wèn)題,并使用了Nuance的語(yǔ)音轉(zhuǎn)文本技術(shù),未來(lái)還可能用來(lái)解決一些醫(yī)療難題。
技術(shù)實(shí)現(xiàn)
NLU是人們多年來(lái)一直希望實(shí)現(xiàn)的一項(xiàng)技術(shù)。1996年,比爾·蓋茨宣布,到2011年時(shí),人們就能開發(fā)出具備人類語(yǔ)音和面部識(shí)別技術(shù)的電腦。就是在今年,如果把智能機(jī)算作電腦(最起碼智能機(jī)功能能夠達(dá)到2001年筆記本的水平),蓋茨的預(yù)言已經(jīng)實(shí)現(xiàn)。最新款A(yù)ndroid智能機(jī)已經(jīng)具備面部識(shí)別解鎖功能,語(yǔ)音功能我們?nèi)栽谂?shí)現(xiàn)。
然而現(xiàn)在的語(yǔ)音技術(shù)還不完美,Siri服務(wù)器已經(jīng)出現(xiàn)了多次宕機(jī)事故。不過(guò)Nuance公司的尼爾·格蘭特(Neil Grant)表示:“時(shí)間將會(huì)解決所有連接問(wèn)題。”
隨著技術(shù)的日益成熟,人們與電腦間的語(yǔ)音互動(dòng)也將會(huì)逐步實(shí)現(xiàn)。