語(yǔ)音是AI智能時(shí)代的重要入口 深聲科技意圖在語(yǔ)音AI賽道彎道超車
自2015年開(kāi)始,中國(guó)人工智能市場(chǎng)規(guī)模逐年攀升,2018年中國(guó)人工智能市場(chǎng)規(guī)模約為238.2億元,增長(zhǎng)率達(dá)到56.6%,據(jù)預(yù)測(cè),到2020年,中國(guó)在人工智能的市場(chǎng)規(guī)模將接近500億元。
“語(yǔ)音是AI智能時(shí)代的重要入口,”深聲科技創(chuàng)始人周俊明說(shuō)。他的底氣來(lái)自多年的行業(yè)積累和互聯(lián)網(wǎng)產(chǎn)品開(kāi)發(fā)經(jīng)驗(yàn)。
2012年,周俊明從中科院計(jì)算所博士畢業(yè),順利進(jìn)入廣電行業(yè)龍頭企業(yè)北京永新視博擔(dān)任高級(jí)算法工程師,主要負(fù)責(zé)音視頻算法工作;2013年,他憑借音視頻算法技術(shù)能力,被騰訊選中,故任職于此,繼續(xù)從事在線音視頻算法技術(shù)研發(fā)工作;2016年,他加入了歡聚時(shí)代,擔(dān)任音視頻技術(shù)總負(fù)責(zé)人,帶領(lǐng)國(guó)內(nèi)頂級(jí)音視頻團(tuán)隊(duì),為YY提供核心技術(shù)服務(wù)和技術(shù)創(chuàng)新方案。
2018年,周俊明和核心團(tuán)隊(duì)成員共同創(chuàng)辦了“深聲科技”,一家智能語(yǔ)音技術(shù)服務(wù)商,主要通過(guò)基于深度學(xué)習(xí)的文字轉(zhuǎn)語(yǔ)音整體解決方案服務(wù)B端客戶,提高客戶在行業(yè)內(nèi)的競(jìng)爭(zhēng)壁壘,幫助客戶形成獨(dú)有的競(jìng)爭(zhēng)優(yōu)勢(shì)。據(jù)悉,成立不到半年,深聲科技就獲得了來(lái)自小米科技的數(shù)千萬(wàn)元天使輪融資。
AI行業(yè)從不缺競(jìng)爭(zhēng)對(duì)手,BAT等頭部大企業(yè)有強(qiáng)者的打法,初創(chuàng)企業(yè)也有自己彎道超車的策略。深聲科技在多年的實(shí)踐摸索發(fā)現(xiàn),以往客戶在語(yǔ)音合成中最關(guān)心的是信息的傳遞。但隨著物質(zhì)生活的不斷提高,客戶對(duì)于語(yǔ)音轉(zhuǎn)化真實(shí)感的需求也日益劇增,催生了擬人聲智能營(yíng)銷、擬人互動(dòng)、擬人陪伴等大規(guī)模商業(yè)化應(yīng)用場(chǎng)景和價(jià)值。基于此邏輯,深聲科技在商業(yè)模式方面主打三大場(chǎng)景:語(yǔ)音內(nèi)容輸出、智能語(yǔ)音交互、智能客服營(yíng)銷。
其中,內(nèi)容輸出業(yè)務(wù)是深聲科技重點(diǎn)推進(jìn)的主線業(yè)務(wù),團(tuán)隊(duì)主要通過(guò)與有版權(quán)IP的企業(yè)合作,以有聲閱讀的方式將深聲語(yǔ)音呈現(xiàn)給消費(fèi)者,內(nèi)容涵蓋文學(xué)、動(dòng)漫、新聞資訊等多種題材和類型。根據(jù)深聲科技提供的數(shù)據(jù)顯示,深聲目前已與十余家行業(yè)頭部的內(nèi)容版權(quán)企業(yè)達(dá)成合作,一方面為企業(yè)提供文字語(yǔ)言轉(zhuǎn)化工具,按字?jǐn)?shù)收費(fèi);另一方面,提供語(yǔ)音合成整體解決方案,共同開(kāi)發(fā)版權(quán)IP的語(yǔ)音形式。
在語(yǔ)音交互業(yè)務(wù)中,團(tuán)隊(duì)依托投資方小米的資源及產(chǎn)品,重點(diǎn)服務(wù)智能語(yǔ)音音箱和車聯(lián)網(wǎng)企業(yè),為其提供語(yǔ)音合成、數(shù)據(jù)制作和人機(jī)交互等服務(wù),協(xié)助客戶在產(chǎn)品開(kāi)發(fā)過(guò)程中精準(zhǔn)感知用戶需求,增強(qiáng)行業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì)。
智能客服營(yíng)銷業(yè)務(wù)是深聲科技正在嘗試的場(chǎng)景,深聲科技主要幫助運(yùn)營(yíng)商和金融客戶定制聲音并合成聲音,使其在營(yíng)銷過(guò)程中提高通話時(shí)長(zhǎng)和營(yíng)銷轉(zhuǎn)化率。談及看好語(yǔ)音交互和智能客服營(yíng)銷這兩類客戶群體的原因時(shí),周俊明告訴創(chuàng)業(yè)邦,這兩類客戶對(duì)于語(yǔ)音音質(zhì)的要求更高,通過(guò)深聲科技自身語(yǔ)音合成技術(shù)的優(yōu)勢(shì)能很快產(chǎn)生規(guī)模化效應(yīng),且這兩類客戶群體的長(zhǎng)期付費(fèi)能力更強(qiáng)。
從時(shí)間的維度上看,深聲科技相比科大訊飛、商湯科技等AI企業(yè)入局較晚,但團(tuán)隊(duì)正在加緊業(yè)務(wù)布局,構(gòu)建自身技術(shù)壁壘。首先,基于端到端的語(yǔ)音合成技術(shù)邏輯,深聲科技會(huì)對(duì)采集到的原始語(yǔ)音進(jìn)行自動(dòng)標(biāo)注,再由聲學(xué)模型算法對(duì)語(yǔ)言和語(yǔ)音進(jìn)行音素級(jí)特征對(duì)齊,可以實(shí)現(xiàn)完全擬人發(fā)聲,將語(yǔ)氣、語(yǔ)調(diào)、語(yǔ)速、抑揚(yáng)頓挫等語(yǔ)音特點(diǎn)完美呈現(xiàn)。在Blizzard Challenge 2019 國(guó)際語(yǔ)音合成大賽中,該技術(shù)在PER(拼音-不包含聲調(diào)-錯(cuò)誤率)和PTER(拼音-包含聲調(diào)-錯(cuò)誤率)兩個(gè)指標(biāo)上優(yōu)于科大訊飛。此外,團(tuán)隊(duì)在聲音定制合成方面的交付能力突出,三天內(nèi)便可完成,而行業(yè)一般需要3~6個(gè)月。
成立不到兩年,團(tuán)隊(duì)已有50多人規(guī)模,其中80%為技術(shù)研發(fā)人員。團(tuán)隊(duì)主要成員擁有中科院、中山大學(xué)、華南理工、日本早稻田大學(xué)等名校碩博教育背景和騰訊、網(wǎng)易、YY等名企工作經(jīng)歷。聯(lián)合創(chuàng)始人黃博賢擁有12年的互聯(lián)網(wǎng)語(yǔ)音和音頻技術(shù)積累,先后在酷狗和YY主導(dǎo)語(yǔ)音和音頻技術(shù)的開(kāi)發(fā)。
接下來(lái),團(tuán)隊(duì)會(huì)重點(diǎn)在效果、性能、數(shù)據(jù)三個(gè)維度優(yōu)化算法技術(shù),為各行各業(yè)提供更多標(biāo)準(zhǔn)化解決方案,加速技術(shù)落地,同時(shí)完善智能語(yǔ)音交互全鏈路技術(shù)。2020年,團(tuán)隊(duì)還將推出面向C端用戶的語(yǔ)音克隆產(chǎn)品,在陪伴、親子互動(dòng)、泛娛樂(lè)等交互場(chǎng)景全面發(fā)力。
目前,該項(xiàng)目已啟動(dòng)A輪融資,資金將全部用于團(tuán)隊(duì)建設(shè)及業(yè)務(wù)拓展。