11月6日,錘子科技在成都舉行了新品發(fā)布會,發(fā)布了首款智能音箱—;—;“大衛(wèi)和希瑞高級智能音箱 D1”。
據(jù)了解,錘子的這款音箱搭載了獵豹移動旗下人工智能公司獵戶星空的全套語音OS解決方案,包括語音合成(TTS)、自然語言處理(NLP)、語音識別(ASR)等一系列的技術(shù)。
同時,獵戶星空還針對錘子打造了業(yè)界首個“一人分飾兩角”的聲音人設(shè)引擎?;诖髷?shù)據(jù)情感的語音合成、漢語語音合成引入重音,打造了智能語音助手在生活和工作中的不同性格特征。
老羅在現(xiàn)場表示,今后還將聯(lián)合獵戶星空,推出更多有個性的人物設(shè)定。他同時感謝合作方獵戶星空,“我們提了最多、最‘變態(tài)’和最讓他們意外的需求,他們?nèi)匀唤o了我們最好的支持?!?/p>
在獵豹移動的“321機器人之夜”上,老羅就曾為好友—;—;獵豹移動董事長兼CEO傅盛站臺,并表示“獵戶語音OS是市面上最好用的語音OS”。今天回到錘子的主場,老羅也用行動證明了自己當(dāng)時打的Call。
發(fā)布會現(xiàn)場,老羅還和機器人“傅盛”進(jìn)行了一場對話。據(jù)了解,機器人“傅盛”是獵戶星空研發(fā)的語音合成技術(shù),傅盛本人只錄制了十段話,就達(dá)到了“以假亂真”的效果。
老羅:“市面上最好用的語音OS”
語音交互能力被看作是智能音箱的“靈魂”。據(jù)不完全統(tǒng)計,目前國內(nèi)有數(shù)十家“語音開發(fā)平臺”,競爭十分激烈。作為老羅口中“最好用的語音OS”,獵戶星空為什么能從眾多競爭對手中脫穎而出,為手機界里最具“工匠精神”的錘子科技保駕護(hù)航?
雙人設(shè)-TTS
雙人設(shè)引擎功能是本次發(fā)布會上的最大亮點之一。這是獵戶針對錘子打造的業(yè)界首個“一人分飾兩角”的聲音人設(shè)引擎。
不同于以往的語音交互體驗中,只有一個聲音一個人設(shè),或最多支持聲音的切換。
雙人設(shè)引擎功能采用獵戶的語音合成技術(shù),基于大數(shù)據(jù)情感的語音合成、漢語語音合成引入重音,打造了男生“耿大衛(wèi)”、女生“何希瑞”在生活和工作中的不同性格特征。
在語音合成的聲音風(fēng)格和文本語料的設(shè)計上,呈現(xiàn)出男友風(fēng)、男職業(yè)風(fēng)、女友風(fēng)、女職業(yè)風(fēng)的性格特征,滿足不同的用戶需求。
女生“何希瑞”
男生“耿大衛(wèi)”
在雙人設(shè)的TTS合成上,獵戶星空也花了很大的心血。從最初的發(fā)音人挑選到最后的語音合成,嚴(yán)格把控每一個環(huán)節(jié),只為把合成的聲音做到最好。
在確定好人設(shè)風(fēng)格后,從200個發(fā)音人中投票選出男、女發(fā)音人,經(jīng)過3個月的時間,打造出人設(shè)相關(guān)的情感語音庫。
因為是同一個發(fā)音人“分飾兩角”,為了保證聲音效果的完美呈現(xiàn),獵戶TTS團(tuán)隊在參數(shù)的調(diào)優(yōu)和效果的打磨上下了很大的功夫,最終呈現(xiàn)出同一個人生活和工作中,聲音溫柔甜美和干凈利索的雙人設(shè)風(fēng)格。
中英文混合識別能力
多語種混合Query的識別是語音技術(shù)中攻克的難點,例如,“我想聽Taylor Swift的One More Night”這樣一句普通的需求,正常人都可以理解。
但是對于智能音箱來說,就是一個不小的挑戰(zhàn)。這是因為,語種切換對語言模型帶來了更大的復(fù)雜度。
為了解決這一難題,獵戶語音OS團(tuán)隊投入了大量的精力,特別是針對性優(yōu)化了中英文點播體驗,達(dá)到了行業(yè)領(lǐng)先效果。
其中一項重要工作就是,提升訓(xùn)練數(shù)據(jù)的數(shù)量和豐富性:獵戶語音OS擁有上千小時的遠(yuǎn)場中英文語料,可用于語言模型的訓(xùn)練;建模一千多個中文音節(jié),并用中文音節(jié)建模英文發(fā)音。
此外,獵戶語音OS還支持8萬首新熱的英文資源歌曲與8千名英文歌手的點播。這些數(shù)據(jù)成為了獵戶語音OS的“基礎(chǔ)設(shè)施”。
除了豐富的數(shù)據(jù)積累,獵戶星空還擁有獨特的技術(shù)壁壘:基于遠(yuǎn)場的語音語義一體化技術(shù),可以提高遠(yuǎn)場交互中高頻Query的識別率,讓機器更好地聽懂世界;其次,圍繞音頻內(nèi)容進(jìn)行深度定制,動態(tài)地更新模型;最后,做好口語化指令泛化,讓點播粒度更細(xì)。
在團(tuán)隊的共同努力下,獵戶語音OS的通用內(nèi)容點播準(zhǔn)確率超過90%,在行業(yè)內(nèi)遙遙領(lǐng)先,同時還支持中英文、兒童、翻譯、車載等場景識別。
獵戶語音OS成為行業(yè)標(biāo)配
作為應(yīng)用最廣的中文語音合成技術(shù),獵戶語音OS技術(shù)占有中國智能語音市場份額超過30%,累計激活設(shè)備超過3000萬。截至目前,獵戶語音OS每天線上語音指令超過2000萬次,擁有上百萬小時的遠(yuǎn)場語音數(shù)據(jù)積累。
獵戶星空過去一年在AI硬件賽道奔跑的歷程,一直擁有兩個核心的邏輯:自主研發(fā)完整技術(shù)鏈條,以及整體戰(zhàn)略上的開放心態(tài)。
獵戶星空的整套AI技術(shù)都是自主研發(fā),包括語音識別、圖像識別、視覺導(dǎo)航等,所以獵戶星空能根據(jù)場景來定制算法,打造更好的用戶體驗。
具體到獵戶語音OS上,全鏈路自研會讓不同技術(shù)環(huán)節(jié)的銜接更為融合,讓語音交互更為迅速準(zhǔn)確:垂直領(lǐng)域深度語義理解96%的正確率、遠(yuǎn)場語音識別率達(dá)到行業(yè)領(lǐng)先的97%、全鏈路流暢網(wǎng)絡(luò)下1.5s的平均響應(yīng)速度。這些都是“下苦功夫”之后帶來的回報。
智能語音的發(fā)展不斷成熟,為各行各業(yè)帶來新的發(fā)展機遇。獵戶星空在打磨自己技術(shù)的同時,也在將技術(shù)優(yōu)勢賦能行業(yè)。
據(jù)了解,獵戶語音OS已經(jīng)應(yīng)用到了華為、小米、美的、喜馬拉雅、獵豹移動等多家合作伙伴的產(chǎn)品中,成為“應(yīng)用最廣泛”的AI語音系統(tǒng)。
10月15日,中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟(AIIA)在人工智能開發(fā)者大會公布了國內(nèi)智能音箱智能化評級結(jié)果,包括獵豹移動、小米、喜馬拉雅、百度、京東在內(nèi)的五家主流廠商攜其智能音箱產(chǎn)品參與了首批測試評估。
獵戶語音OS占據(jù)了獲評產(chǎn)品前五強中的三席,支撐起了智能音箱市場的大半壁江山。
結(jié)合自身人機交互的產(chǎn)品基因和獵戶星空擁有的行業(yè)唯一的全鏈條AI技術(shù),獵豹移動也在不同行業(yè)推動人工智能產(chǎn)品的場景化落地。
未來,獵豹移動與旗下獵戶星空還會將自主研發(fā)的視覺、導(dǎo)航、語音、機械臂技術(shù)等核心能力逐步對外開放,與合作伙伴一起,讓機器人產(chǎn)品走進(jìn)大眾生活。