搜狗開放聽寫服務(wù) 與愛國者索尼等成立錄音筆AI創(chuàng)新聯(lián)盟
8月28日,搜狗宣布將其核心技術(shù)能力“搜狗聽寫”服務(wù)開放,并宣布與愛國者、紐曼、索尼錄音筆、萬城集團(tuán)四家錄音筆行業(yè)頭部企業(yè)成立AI創(chuàng)新聯(lián)盟。用戶手上的這些品牌的錄音筆都可以用上搜狗聽寫服務(wù)。
搜狗CEO王小川表示,搜狗的使命是讓表達(dá)和獲取信息更簡單,輸入法是幫用戶表達(dá)信息,搜索是幫用戶獲取信息。目前搜狗輸入法語音請求峰值已超過7億次,已經(jīng)成為中國最大的語音輸入法。語音識別準(zhǔn)確率達(dá)到98%,居于行業(yè)領(lǐng)先。搜狗的語音增強(qiáng)、語音變聲、語音合成等能力已經(jīng)在多場景落地應(yīng)用。
此次開放的搜狗聽寫服務(wù)背后包含多項業(yè)界領(lǐng)先的技術(shù)。其中轉(zhuǎn)寫技術(shù)已處于行業(yè)領(lǐng)先地位,其實時語音轉(zhuǎn)寫運用了搜狗自研的延遲可控的Adaptive Attention-based端到端建模技術(shù),非實時語音轉(zhuǎn)寫功能使用業(yè)界領(lǐng)先的深層Transformer-based端到端語音識別技術(shù),語音轉(zhuǎn)寫準(zhǔn)確率可達(dá)95%以上。
在語音增強(qiáng)方面,搜狗自研的Smart Voice麥克風(fēng)陣列算法能夠?qū)υ肼暫突祉戇M(jìn)行多重深度優(yōu)化,確保人聲的高保真還原。
在智能輔助編輯方面,搜狗語音轉(zhuǎn)寫可以通過云端智能糾錯編輯技術(shù),基于詞圖搜索和輸入糾錯模型,針對置信度低的轉(zhuǎn)寫結(jié)果提供多個候選詞,幫助用戶對轉(zhuǎn)寫結(jié)果進(jìn)行糾正,同時還具備了良好的自動區(qū)分說話人、智能文本順滑和標(biāo)點預(yù)測等能力,可以為用戶提供更多便捷功能。
報告顯示,市場上傳統(tǒng)的錄音筆產(chǎn)品有近20年沒有新的技術(shù)突破,近2年錄音筆行業(yè)銷售量增長遲緩、市場趨于飽和,迫切需要新的技術(shù)變革。
而據(jù)介紹,搜狗在今年3月推出了AI錄音筆C1,這款區(qū)別于傳統(tǒng)錄音筆的產(chǎn)品一經(jīng)發(fā)布,在極短時間內(nèi)就在多個電商平臺取得了單品銷量第一的成績。這說明市場對智能化的錄音筆是有很高需求的。這也是搜狗決定開放聽寫服務(wù),和錄音筆行業(yè)頭部企業(yè)成立AI創(chuàng)新聯(lián)盟來促進(jìn)錄音筆行業(yè)發(fā)展的原因。
搜狗聽寫服務(wù)開放提供移動和PC2種接入方式。移動端,搜狗升級推出搜狗錄音助手APP,面向聯(lián)盟的能力升級包括藍(lán)牙協(xié)議開放。
PC接入方式上,搜狗聽寫服務(wù)和搜狗輸入法PC版進(jìn)行了打通,傳統(tǒng)品牌的錄音筆插入用戶PC后,通過搜狗輸入法來進(jìn)行搜狗聽寫服務(wù)的調(diào)用。
搜狗方面表示,開放聽寫服務(wù)后,可以為市場上90%以上的錄音筆產(chǎn)品提供接入服務(wù),讓所有有需求的用戶享受“錄音1小時,出稿5分鐘”的體驗。