真聽真看見，未來(lái)人機(jī)交互需消除用戶的認(rèn)知負(fù)荷

時(shí)間：2023-01-09 19:35:02

關(guān)鍵字：技術(shù) 物聯(lián)網(wǎng) 信息

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]自從技術(shù)出現(xiàn)以來(lái)，對(duì)技術(shù)的道德恐慌就一直是人類體驗(yàn)的一部分。而人類科技所帶來(lái)的信息共享，正有逐步讓人類打消對(duì)隱私的顧慮，習(xí)慣透明化生存，以及將人體作為物聯(lián)網(wǎng)終端一部分的趨勢(shì)。

自從技術(shù)出現(xiàn)以來(lái)，對(duì)技術(shù)的道德恐慌就一直是人類體驗(yàn)的一部分。而人類科技所帶來(lái)的信息共享，正有逐步讓人類打消對(duì)隱私的顧慮，習(xí)慣透明化生存，以及將人體作為物聯(lián)網(wǎng)終端一部分的趨勢(shì)。

數(shù)據(jù)研究者稱 2020 年，語(yǔ)音交互將占據(jù) 50% 的搜索入口。Amazon Alexa和Google助手等語(yǔ)音助手，AIOT, 車載助理，智能音箱... 在目前人類科技樹上，“語(yǔ)音交互” (Voice interaction) 已然成為必點(diǎn)技能之一。然而在各種場(chǎng)景下，人們嘗試通過“自然語(yǔ)言”重新與冰冷的機(jī)器對(duì)話，但往往效果不及預(yù)期。

語(yǔ)音識(shí)別技術(shù)大概經(jīng)歷過三個(gè)階段，從匹配聲紋和聲波到下達(dá)命令，面臨很難進(jìn)行統(tǒng)一地語(yǔ)法規(guī)律，識(shí)別的錯(cuò)誤率很高的挑戰(zhàn)，一直到依托于算力和大數(shù)據(jù)，通過神經(jīng)網(wǎng)絡(luò)來(lái)建立更復(fù)雜的這種語(yǔ)音識(shí)別模型。

VUI（Voice User Interface，語(yǔ)音用戶界面）正是在第三階段快速發(fā)展的新領(lǐng)域。VUI對(duì)用戶體驗(yàn)提出了更多關(guān)于語(yǔ)言學(xué)、情感塑造、邏輯搭建等方面的新要求。

語(yǔ)音技術(shù)，越來(lái)越多地用于智能家居控制、樓宇自動(dòng)化、智能零售、聯(lián)接的汽車、醫(yī)療等物聯(lián)網(wǎng)垂直領(lǐng)域。而語(yǔ)音識(shí)別和自然語(yǔ)言處理技術(shù)是VUI的基礎(chǔ)。

“千箱大戰(zhàn)”退潮，智能語(yǔ)音交互持續(xù)進(jìn)化

人類傳統(tǒng)的交互單一通道有眼（視覺系統(tǒng)）、耳（聽覺系統(tǒng)）、口（味覺系統(tǒng)）、鼻（嗅覺系統(tǒng)）、手（觸覺系統(tǒng)）等器官，在這些通道彼此融合后，人機(jī)交互技術(shù)正從鍵盤鼠標(biāo)變成了觸屏，又轉(zhuǎn)變成現(xiàn)在的語(yǔ)音視覺等多模態(tài)交互。具體表現(xiàn)為從“手指”優(yōu)先，發(fā)展為“語(yǔ)音”優(yōu)先。語(yǔ)音交互技術(shù)兼顧老人、兒童以及方言人士讓語(yǔ)音對(duì)話體驗(yàn)越來(lái)越好。語(yǔ)音與視覺，觸屏，LCD反饋顯示結(jié)合的交互體驗(yàn)，令交互門檻的不斷降低。

VUI是用戶通過語(yǔ)音或者語(yǔ)音平臺(tái)與計(jì)算機(jī)進(jìn)行人機(jī)交互，來(lái)啟動(dòng)自動(dòng)化服務(wù)或流程。VUI設(shè)計(jì)，即用戶與語(yǔ)音應(yīng)用系統(tǒng)的交互設(shè)計(jì)。VUI是直接面向用戶的界面，所以是否能滿足用戶需求是系統(tǒng)成功與否的決定性因素之一。

VUI各種場(chǎng)景下對(duì)聲音信息的收集帶來(lái)了便利，個(gè)性化推送、定制服務(wù)都不再高端，逐漸平民化，提高了社會(huì)運(yùn)行效率，降低時(shí)間與商家的營(yíng)銷成本。

VUI將成為私人助理

一個(gè)行業(yè)，如果有爆發(fā)式的增長(zhǎng)，一定是打中了被壓制的需求。聲音的價(jià)值在于便利性和情境性或者情感性，VUI正是戳中了別的交互技術(shù)所不能達(dá)到的情境性。

Siri淑女、微軟小冰的童真可愛、小愛同學(xué)的青春靚麗，商家主動(dòng)打造VUI虛擬角色、樹立不同人格特質(zhì)供用戶選擇。

VUI技術(shù)的發(fā)展將更容易為人們提供量身定制的數(shù)字體驗(yàn)，它不但能成為人們的私人助理，了解人的需求，還能超前預(yù)測(cè)需求。它能涉及到你生活的方方面面，甚至是你想象不到的領(lǐng)域。

聲音承載的信息特性是能包含更多感情信息。因?yàn)樾枰€(wěn)定易理解的文字信息所以更需要語(yǔ)音識(shí)別，只是強(qiáng)調(diào)語(yǔ)音清晰還不夠用。但其實(shí)無(wú)論是Siri還是微軟小冰，語(yǔ)音呈現(xiàn)模仿人類的語(yǔ)言情感仍不算非常理想，“機(jī)器味兒”重。

VUI 的設(shè)計(jì)趨勢(shì)

衡量語(yǔ)音交互的質(zhì)量也不再局限于識(shí)別的準(zhǔn)確率，而是更側(cè)重垂直場(chǎng)景下的語(yǔ)義理解，以及后端的內(nèi)容服務(wù)。

＋

讓智能語(yǔ)音交互實(shí)現(xiàn)“真”智能

未來(lái)的語(yǔ)音交互終端需要理解“千人千面”，即使對(duì)面是一臺(tái)機(jī)器，它不僅懂你聲音的語(yǔ)義，也懂你的情感和訴求。

聲音承載的信息本身，信息密度不高，而且人類主要依賴視覺信息。聲音信息（生物特征識(shí)別）本身的價(jià)值，比較有限，應(yīng)用也很有限。說(shuō)話聲音的粗細(xì)音調(diào)高低語(yǔ)言習(xí)慣，這些在刑偵領(lǐng)域、安防技術(shù)領(lǐng)域有應(yīng)用。無(wú)障礙設(shè)計(jì)，創(chuàng)建可用不同方式呈現(xiàn)的內(nèi)容（例如簡(jiǎn)單的布局），而不會(huì)丟失信息或結(jié)構(gòu)。

追求的一種自然、親切的交互方式，使產(chǎn)品“帶有情感和溫度的交互體驗(yàn)”，真正的從用戶角度出發(fā)。

＋

消除使用者的認(rèn)知負(fù)荷

聲音信息的價(jià)值被注意到，但是如何利用和維護(hù)是個(gè)問題。

一方面，目前缺乏監(jiān)管、缺乏法律對(duì)于聲音信息收集的約束（其實(shí)對(duì)于隱私收集，全世界范圍內(nèi)都缺乏成熟的法律法規(guī)），導(dǎo)致聲音信息收集被濫用。另一方面，一些打著科技讓生活更美好的幌子的企業(yè)們干起了用戶信息灰色交易、大數(shù)據(jù)殺熟等等勾當(dāng)。

19年南京建環(huán)給環(huán)衛(wèi)工配發(fā)智能手環(huán)

更敏感的，是公權(quán)力對(duì)于聲音信息的收集是否對(duì)于公民權(quán)利構(gòu)成侵犯。對(duì)于公權(quán)力法無(wú)授權(quán)地侵犯，法律似乎沒有明確這方面的界限。

消除使用者的認(rèn)知負(fù)荷，是VUI技術(shù)持續(xù)發(fā)展亟待解決的問題。

協(xié)同圖形用戶界面（GUI）

語(yǔ)音、視覺、觸控加上反饋的融合是未來(lái)的方向。建立GUI+VUI協(xié)作機(jī)制，可打造更多智慧體驗(yàn)。

GUI的內(nèi)容主要為圖形和文字；VUI的內(nèi)容主要為文字。人們主要通過點(diǎn)擊和手勢(shì)的方式與GUI進(jìn)行交互，人們通過對(duì)話的方式與VUI進(jìn)行交互。VUI要給出正確的響應(yīng)事件必須要先理解人類在說(shuō)什么，更重要的是在想什么。

例如Siri、Google Assistant、Cortana、Bixby，以及Alexa屏幕版。在GUI的基礎(chǔ)上增加VUI有助于簡(jiǎn)化整個(gè)導(dǎo)航的交互，可以做到無(wú)直接關(guān)系頁(yè)面的跳轉(zhuǎn)，例如以命令的形式導(dǎo)航去其他應(yīng)用的某個(gè)頁(yè)面。在VUI的基礎(chǔ)上增加GUI可以使選擇、確認(rèn)等操作得以簡(jiǎn)化，尤其是用Alexa進(jìn)行購(gòu)物時(shí)。