當(dāng)前位置:首頁 > 智能硬件 > 人工智能AI
[導(dǎo)讀] 一、AI驅(qū)動硬件,顛覆用戶體驗 1.AI錄音筆 雖然說錄音筆是個小眾市場,但有了人工智能的加持,錄音筆變成了電商爆款。 我們今年出品了一款人工智能的加持的AI錄音筆,它在

一、AI驅(qū)動硬件,顛覆用戶體驗

1.AI錄音筆

雖然說錄音筆是個小眾市場,但有了人工智能的加持,錄音筆變成了電商爆款。

我們今年出品了一款人工智能的加持的AI錄音筆,它在雙十一多個主流電商平臺上取得了單品銷量第一的成績,同時復(fù)購率還很高。

相對傳統(tǒng)錄音筆來說,我們的AI錄音筆不僅有雙麥克風(fēng)陣列,同時還有AI降噪、實時轉(zhuǎn)寫文字、云端存儲和搜索、智能編輯、同聲傳譯等功能。

這款產(chǎn)品上線后,整個市場都改變了,索尼、愛國者、紐曼都加入進(jìn)來,成立了一個聯(lián)盟,而搜狗成了盟主。

根據(jù)我們的調(diào)查,我們的AI錄音筆上線之前,整個錄音筆市場銷量是逐年下滑的,市場保有量只有400萬支。

從3月份我們上線第一代產(chǎn)品開始,主流電商平臺的錄音筆搜索量開始上升,到12月份我們發(fā)布了第二代產(chǎn)品,開始一點點變硬,就像之前手機(jī)從功能機(jī)走向智能機(jī)一樣。而且,加上AI能力的注入,帶來的注定是顛覆式的體驗。

2.AI時代個人硬件的趨勢

有了AI的注入,C端消費(fèi)品也發(fā)生了變化,這個變化主要有兩大趨勢。

① 變得更加便攜

以前放在桌上的PC機(jī)很大,隨后智能硬件開始走向筆記本、iPad、手機(jī),甚至開始走向可穿戴,因此未來個人硬件的趨勢是越來越移動化、便攜化。

② 擁有更強(qiáng)的IO能力

從以前的計算能力走向傳感器能力,并且基于AI的處理能力,將從人去適應(yīng)機(jī)器,變成機(jī)器適應(yīng)人,最終機(jī)器接管人的感官,成為人的助理。

AI對硬件會產(chǎn)生什么影響呢?對于未來10年路徑,我的暢想是智能硬件從手機(jī)走向手表、耳機(jī),到未來走向眼鏡,這可能會逐漸改變我們以手機(jī)為中心的使用方式,比如眼鏡和耳機(jī)會取代手機(jī)作為我們接觸外界信息的通道。

硬件背后,是人去感知這個世界。

除了有圖像和聲音之外,很重要的就是語言,它是我們與世界交互的一種抽象方式。而且,只有人類能夠處理語言。

亞里士多德曾講到,“語言是心靈印象的符號,是人類思維的工具,是知識的載體。有了語言,人類社會才能溝通交流。不管是我們生產(chǎn)的語言,還是計算機(jī)處理的語言,語言都是最難的一件事情,是人工智能皇冠上的明珠。”

圖靈測試中提到,機(jī)器能夠用語言與人交流,就代表它擁有智能。

今天我們的人工智能還不具有創(chuàng)造力和通用的推理能力,但是可以做這樣一個猜想:

只有當(dāng)機(jī)器掌握了語言之后,它才能夠完整地?fù)碛袆?chuàng)造力和推理能力。

不會講話的機(jī)器,你會認(rèn)為它智能嗎?當(dāng)然不會。因此,語言在智能當(dāng)中極其重要,這也是人與動物的重大區(qū)別。

二、語言AI的發(fā)展趨勢

我們會看到,以語言為核心變成了人工智能發(fā)展路徑的關(guān)鍵節(jié)點。我們做輸入法、做搜索,其實都是在處理語言,都是為了幫大家更好地表達(dá)、更好地獲取信息。

1.語言的自然交互和認(rèn)知問題

關(guān)于語言,我有兩部分內(nèi)容要分享給大家:

第一,自然交互。

自然交互讓人跟機(jī)器之間能夠用語音、圖像、手勢等各種方式產(chǎn)生交流,其中用到了語音、圖像技術(shù),也包括視覺技術(shù)。

第二,認(rèn)知問題,我們叫做知識計算。

基于語言,機(jī)器能夠進(jìn)行問答和對話,機(jī)器翻譯是認(rèn)知技術(shù)入門的門檻。有了更好的感知技術(shù),機(jī)器會從手機(jī)走向新的智能硬件;有了更好的認(rèn)知技術(shù),機(jī)器對知識會產(chǎn)生理解和推理,尤其是在垂直領(lǐng)域擁有問答的能力。

智能硬件新的硬件形式與新的對話和問答能力,未來會走向智能助理,這也是整個AI行業(yè)在產(chǎn)品層面上最明珠的地方。

蘋果大概在2006年就開始推出智能助理,到今天Google、百度、阿里、小米做這樣的音箱產(chǎn)品,核心都是在做智能助理。但是從外殼上來說,我認(rèn)為并不是最好的方向。

在知識計算之后,我們強(qiáng)調(diào)一個核心觀點,就是機(jī)器做閱讀理解之后做問答,傳統(tǒng)的搜索是通過關(guān)鍵詞給你10條鏈接,隨著技術(shù)的進(jìn)步,我們整個處理能力會從詞變成句子、段落、篇章,用戶的表達(dá)也可能會轉(zhuǎn)換成句子,機(jī)器的閱讀理解也會走向篇章和整個文章體系,這是技術(shù)進(jìn)步帶來的機(jī)會。

首先,人聲分離,如果是兩個人在對話,機(jī)器要能識別不同的人,能動態(tài)地去判斷是第一個人還是第二個人。

其次,機(jī)器要能夠識別掌聲、笑聲或其它聲音,幫助我們理解內(nèi)容。

最后,中英文混合是非常難的事情,從傳統(tǒng)的深度學(xué)習(xí)網(wǎng)絡(luò)數(shù)據(jù)中得不到一個混合的模型,所以要在機(jī)器中加入一些特定知識,來改變這個系統(tǒng)。

傳統(tǒng)的硬件是用麥克風(fēng)矩陣實現(xiàn)的,用多個麥克風(fēng)進(jìn)行中間的數(shù)字計算、信號處理。今天依靠人工智能,我們有了新的方法,我們的工程師在現(xiàn)實場景中對4萬種噪音進(jìn)行了學(xué)習(xí),使得機(jī)器有能力分辨噪音。

3.語音合成

做技術(shù)的人都知道,以今天的AI能力,機(jī)器不會有非常精準(zhǔn)的認(rèn)知理解,大家聽到的可能還是轉(zhuǎn)述師那種毫無情感的聲音,為了讓合成的聲音更加具有感情、更加像本人真實聲音,我們使用了一種新技術(shù):聲音皮膚。在技術(shù)上,我們稱之為特征的提取能力。

比如,大家在得到聽梁寧的課程,其實就是讓另外一個人讀一篇文章,再把聲音皮膚附到這個聲音里面來,使得合成的聲音可以表達(dá)他的情感,經(jīng)過合成之后,最后由梁寧來呈現(xiàn)。

這種做法能改善整個音頻節(jié)目的生產(chǎn)環(huán)節(jié),表演者和生產(chǎn)者做到一定的分離,避免因為人員離職、生病等帶來的各種不確定因素。

這種情況下,使得我們每個人在互聯(lián)網(wǎng)上不僅可以換成其它形象,也可以換成自己想要的任何一個聲音形象。

在生活中也有實際用處,年底馬上要開年會了,如果你要表演唱歌,但是五音不全怎么辦呢?可以把你的聲音特征做一次提取,然后放到《藍(lán)精靈》歌里,會比你自己唱得好聽。

這樣一些技術(shù),使得在交互中間能夠做到人機(jī)結(jié)合,使得制作能力能夠放大。

4.從語音變聲到視頻合成

搜狗分身發(fā)展到現(xiàn)在經(jīng)歷了多次技術(shù)迭代,從最早給新華社做主持人,到給央視做主持人,再到第二代能夠讓它更豐富地表達(dá);

第三代,能夠站起來有手勢;

到第四代之后就開始做到了多語言、多場景的播報能力;

到了第五代之后開始能夠做交互,比如平安普惠的保險項目,服務(wù)人員已經(jīng)被機(jī)器取代了,實際你在保險簽約的時候,是機(jī)器人跟你做交互回答。

我們將很快發(fā)布第六代產(chǎn)品,它將擁有大角度、大幅度的動作能力。

這樣的技術(shù)是機(jī)器在取代人上面的一次重大應(yīng)用。所以,這里面我們可以看到,以語言為核心,背后配上語音、人的表情、肢體、唇語,是能夠使得人機(jī)交互實現(xiàn)更自然的狀態(tài)的。

在未來,也許不到10年時間,我們將會構(gòu)建這樣一條路徑:自然交互會從文字走向語音、圖像理解,大家看到的錄音筆、同傳、合成主播等,其實是在語音圖像的交互能力里面做增強(qiáng),背后還是語言。

另外一條道路就是認(rèn)知能力不斷提升,使得從搜索走向、輔助醫(yī)療、輔助問答以及合并語音圖像技術(shù),最終走向行業(yè)終極的理想,就是每個人都擁有一個個人助理。

在一些垂直領(lǐng)域當(dāng)中,能夠幫你去做秘書的工作,或者是成為你的分身,跟世界進(jìn)行溝通。

我們也會持續(xù)布局語言AI下的產(chǎn)品,為大家呈現(xiàn)顛覆體驗的個人助理,用機(jī)器幫助每一個人,讓表達(dá)、獲取信息更加簡單。謝謝!

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉