4+1環(huán)形五麥克風(fēng)陣列開創(chuàng)語音交互新格局
人工智能的起源是在1956年Dart Month會(huì)議上,是一種能夠和人一樣進(jìn)行感知、人質(zhì)、決策、執(zhí)行的人工程序,如今人工智能正在成為時(shí)代的趨勢(shì),逐漸進(jìn)入真正爆發(fā)的前夜。目前在計(jì)算智能和感知智能方面AI都已經(jīng)趕上甚至超過人類,Alphago戰(zhàn)勝李世石就是一個(gè)很好的例子,而認(rèn)知智能則是當(dāng)下人工智能的重點(diǎn)挑戰(zhàn)。
為此,科大訊飛在3月30號(hào)在深圳阿基米互聯(lián)網(wǎng)公社舉辦“訊飛核心技術(shù)開發(fā)日——麥入云端,引領(lǐng)智能交互新主義”沙龍活動(dòng),分享了對(duì)人工智能的理解和為此而做出的努力,并帶來了完整的智能硬件語音交互解決方案和開放平臺(tái)核心交互技術(shù)。
圖:科大訊飛開放平臺(tái)副總經(jīng)理馬漢君
科大訊飛開放平臺(tái)副總經(jīng)理馬漢君表示,人工智能分成三個(gè)階段,分別是計(jì)算智能、感知智能以及認(rèn)知智能。目前計(jì)算智能已經(jīng)超過了人類的一種模式,從最開始的原子彈的計(jì)算已經(jīng)代表了計(jì)算的能力;感知智能,機(jī)器人正在快速的接近人類,美國在研究機(jī)器狗、谷歌無人汽車也證明這點(diǎn);認(rèn)知智能,這才是當(dāng)前人工智能的挑戰(zhàn),就是如何讓機(jī)器對(duì)知識(shí)的一種學(xué)習(xí)和理解。
同時(shí)指出,在去年訊飛發(fā)布了AIUI,這是一個(gè)為智能硬件量身定制的智能交互方案,重新定義了萬物互聯(lián)時(shí)代人機(jī)語音交互標(biāo)準(zhǔn),具備了遠(yuǎn)場(chǎng)降噪、方言識(shí)別、語音糾錯(cuò)、多輪對(duì)話等功能,通過統(tǒng)一接口、開放的服務(wù)擴(kuò)展、靈活的能力搭配實(shí)現(xiàn)人機(jī)交互與產(chǎn)品體驗(yàn)的結(jié)合??拼笥嶏w希望和合作伙伴一起,用人工智能改變世界。
圖:科大訊飛云平臺(tái)事業(yè)部產(chǎn)品經(jīng)理張良春
在人工智能領(lǐng)域,科大訊飛帶來打破遠(yuǎn)場(chǎng)語音交互瓶頸的最新利器——環(huán)形五麥克風(fēng)陣列??拼笥嶏w云平臺(tái)事業(yè)部產(chǎn)品經(jīng)理張良春表示,五麥麥克風(fēng)陣列是常說的四加一環(huán)形,在這種范圍內(nèi)是在人聲識(shí)別有非常好的要求,其遠(yuǎn)場(chǎng)拾音距離可達(dá)5米、支持360全平面拾音角度、支持連續(xù)喚醒、回聲消除、語音打斷。
4+1環(huán)形五麥克風(fēng)陣列產(chǎn)品模式
張良春指出,使用科大訊飛的麥克風(fēng)陣列模塊可以幫助開發(fā)者迅速開發(fā)產(chǎn)品,大大節(jié)省產(chǎn)品開發(fā)周期,也提供包括單麥、雙麥、四麥線性、環(huán)形五麥和環(huán)形七麥等軟核方案,特別是環(huán)形七麥方案支持7米拾音距離、360°聲源定位、±10°聲源定位精度,陣列錄入的音頻信噪比更高。同時(shí),硬件方案搭配科大訊飛開放平臺(tái)的語音喚醒閉環(huán)優(yōu)化服務(wù)、語音識(shí)別、語義理解深度定制、身份鑒別、自然語音合成等功能,可以讓開發(fā)者的產(chǎn)品如同黑暗中的螢火蟲那么鮮明和出眾。
這個(gè)是五麥克風(fēng)陣列的一些產(chǎn)品模式,主要是把語音數(shù)據(jù)變控,以及音頻處理都放在一個(gè)硬件上。有五個(gè)麥克風(fēng)同時(shí)收錄了5個(gè)音頻,同時(shí)送入硬件模塊中,可以對(duì)信息進(jìn)行處理,機(jī)器也需要給它供電。張良春談到,這個(gè)模塊的優(yōu)點(diǎn)就是快速集成,可以快速的形成產(chǎn)品,就一個(gè)字快,在正常的條件下有優(yōu)點(diǎn),也有一些不足之處。它的不足之處肯定就是成本有點(diǎn)偏高,只適合小批量的開發(fā)來使用。
在五麥克風(fēng)陣列軟核的方案上,有兩個(gè)方面值得重視。一個(gè)是音頻收集,由音頻收集到音頻匯聚到處理,每個(gè)結(jié)點(diǎn)訊飛都會(huì)為提供相應(yīng)產(chǎn)品,幫助用戶來更好的集成軟件;另一個(gè)是音頻匯聚,基本上音頻處理的CPO或者IPO在處理音頻只能處理移動(dòng)云,還需要有一個(gè)音頻匯聚的電路進(jìn)行處理。