隨著人工智能行業(yè)的快速發(fā)展,未來機器人都將在各行各業(yè)發(fā)揮重要的作用,且充滿無限可能。在電影《超能陸戰(zhàn)隊》中,機器人主角“大白”既能識別他人跟它說的話,又能“機智”地給出回答。當語音識別和人工智能兩項技術(shù)完善到一定程度,從冰冷的機器身上獲得人與人交往的溫度將成為可能。而智能語音作為最天然的交互入口,儼然已成為機器人領(lǐng)域的場景標配,尤其是服務型機器人領(lǐng)域。
專注智能硬件語音交互的思必馳于2007年在英國劍橋的高新區(qū)創(chuàng)立,早期曾提供語音口語教育服務。當2014年智能硬件風潮興起,他們看到人機對話真正的落地的終端機會,于是思必馳將教育事業(yè)部剝離出去成立了馳聲科技,開始全力深耕智能硬件領(lǐng)域的語音交互技術(shù)。其中,智能機器人領(lǐng)域也是思必馳所要垂直進攻的領(lǐng)域之一。
市場高需求意味著哪些高要求
當然市場的高需求,也意味著對智能語音的高要求。鑒于此,我們采訪了思必馳機器人事業(yè)部商務總監(jiān)王巍。她表示:“單純強調(diào)識別率、喚醒率的語音技術(shù)已經(jīng)不能滿足市場需求。隨著感知智能的發(fā)展,大量的數(shù)據(jù)資源的積累成為了下一步發(fā)展的基礎(chǔ),如何培養(yǎng)智能語音的認知智能,達到思考決策的目的,成為當前熱點議題。”
思必馳機器人事業(yè)部商務總監(jiān) 王巍
針對目前這種現(xiàn)狀,思必馳語音技術(shù)更加專注于人性化的交互體驗,在機器人領(lǐng)域,思必馳提供語音識別、語音合成、語音喚醒、多輪對話等純軟件技術(shù)方案,也提供如環(huán)形“6+1”遠場麥克風陣列等軟硬一體化的解決方案。
例如,360兒童機器人巴迪應用了思必馳的語音合成技術(shù),浙江大華旗下的樂橙小樂機器人應用了環(huán)形“6+1”遠場麥克風陣列,蘿卜科技的小蘿卜機器人一代應用了思必馳的單麥方案,二代機器人將應用環(huán)形“6+1”遠場麥克風陣列。這些產(chǎn)品受到目標家庭的歡迎,均屬于市場熱銷的家用服務型機器人。
出色的市場表現(xiàn)離不開思必馳軟硬一體化的解決方案和一直對人機交互體驗不懈的追求。
1、軟硬一體化的解決方案
環(huán)形6+1遠場麥克風陣列是軟硬一體化的解決方案,主要針對機器人和智能家居中需求全角度拾音的硬件產(chǎn)品,其中6個麥克風呈360°排列,準確定位聲源,誤差控制在±10°以內(nèi);1個麥克風置于中間;自主研發(fā)降噪及回聲消除技術(shù),可實現(xiàn)回聲消除(AEC)、聲源定位(DOA)、波束成形(BF)、語音增強(SE)等功能;而且可實現(xiàn)業(yè)界領(lǐng)先的5米遠場交互,5米92%,3米94%,1米96%。
環(huán)麥方案的應用意義重大,還表現(xiàn)在它相對單麥、雙麥、線性麥克風陣列,它打破了原有麥克風拾音角度及交互距離的局限。一方面,實現(xiàn)全角度拾音,能更好的滿足機器人及音箱類、中控類等需要全角度拾音的智能硬件的需求,進行精準生源定位;另一方面,麥克風陣列在前端充分利用其空域濾波特性,抑制拾音波束外的回聲、混響等噪聲,進行語音增強處理,輔之以語音識別引擎的二次處理,實現(xiàn)優(yōu)質(zhì)的遠場識別交互。
機器人事業(yè)部商務總監(jiān)王巍特別提到,風靡國際的大家已熟知的亞馬遜Echo音箱,她表示:“這一市場典范級產(chǎn)品應用的也是環(huán)形麥克風陣列,與思必馳環(huán)麥6+1麥克風陣列方案有異曲同工之妙。”
2、交互始終是思必馳語音技術(shù)的重點之一。
與同行相比,思必馳是國內(nèi)首先強調(diào)機器學習“認知智能”的語音企業(yè),強調(diào) “基于多輪對話的認知型對話系統(tǒng)”對智能硬件的核心作用。
思必馳認為,智能硬件中的人機口語交互的核心問題是:感知智能中的抗噪、遠場識別和回聲消除,以及強大的認知智能。從而增強語音方案的意圖追蹤及決策功能,為用戶提供更人性化的交互方案。
如何應對語音交互體驗存在的問題
機器人事業(yè)部商務總監(jiān)王巍認為,盡管機器人市場的確十分火爆,同時智能語音作為交互方式的必備手段也備受期待,但是目前市場機器人交互體驗存在兩個非常明顯的問題:一是交互刻板,無法判斷用戶意圖,缺乏認知智能;二是后端資源欠缺,無法滿足用戶需求。
針對上述問題,思必馳是這樣做的:
一方面,思必馳的語音解決方案更側(cè)重于垂直場景下的語音交互,注重認知智能,追蹤用戶的真正說話意圖,并反饋更精準有效的資源,增強交互。
另一方面,思必馳不斷擴充后端資源,在社交、導航、音樂、天氣查詢、O2O、生活資訊、金融股票等各個領(lǐng)域擴充資源,滿足用戶更多需求。
堅持To B的商業(yè)模式,專注智能語音研發(fā)
這些年來,人機交互手段不斷發(fā)生著變化,鍵盤、鼠標、觸控到現(xiàn)在的語音交互,人工智能的不斷發(fā)展必然會引起交互手段的不斷變革,智能語音必然會成為每個領(lǐng)域場景交互的標配。
王巍認為,目前智能語音在車聯(lián)網(wǎng)領(lǐng)域的應用較為領(lǐng)先與成熟,在物聯(lián)網(wǎng)領(lǐng)域的應用緊隨其后,整個智能硬件領(lǐng)域?qū)χ悄苷Z音的需求更為強烈。她表示:“未來智能語音技術(shù),必將從當前的感知智能走向認知智能,進行自我思考,最終形成決策控制。”
思必馳目前針對智能車載、智能家居、智能機器人三個垂直領(lǐng)域提供智能語音交互方案。除提供語音識別、語音合成、語音識別++、語義理解、交互對話等核心軟件技術(shù)之外,思必馳也提供整套的解決方案,如針對智能車載領(lǐng)域推出了AIOS對話操作系統(tǒng),針對機器人及智能家居領(lǐng)域的環(huán)形6+1遠場麥克風陣列軟硬一體化方案等。
未來思必馳將一直專注在智能語音的認知智能,讓語音交互更加人性化。它也將會依托思必馳上海交大聯(lián)合實驗室,持續(xù)在智能語音的研發(fā)與應用領(lǐng)域發(fā)力,堅持To B的商業(yè)模式。據(jù)王巍透露,針對機器人領(lǐng)域,思必馳將在近期推出針對智能機器人領(lǐng)域的AIOS FOR ROBOT對話操作系統(tǒng),通過對上層領(lǐng)域制定的抽象接口,可極大縮短開發(fā)者的時間,提高開發(fā)者的效率,降低開發(fā)者后期維護成本。
思必馳也將依托穩(wěn)健的研發(fā)技術(shù),不斷擴展在機器人領(lǐng)域的業(yè)務范圍,我們拭目以待。
本次發(fā)燒友學院邀請了思必馳機器人事業(yè)部商務總監(jiān)為我們分享目前服務機器人市場的生態(tài)環(huán)境,現(xiàn)狀、市場需求、趨勢、挑戰(zhàn)點?以及在智能語音交互方面涉及到哪些相關(guān)技術(shù),國內(nèi)的發(fā)展現(xiàn)狀?在智能語音交互和情感設(shè)計上目前有哪些技術(shù)難點?思必馳是如何解決這些難點?如何利用思必馳的6+1環(huán)形麥克風列陣解決方案快速打造一款機器人。發(fā)燒友學院直播教你如何提高機器人自然語言交互能力。