了解人工智能在語音方面、圖像處理方面及自然語言方面的突破
掃描二維碼
隨時(shí)隨地手機(jī)看文章
有人說現(xiàn)在是人工智能的春天,有人說是夏天,還有人悲觀一點(diǎn),說是秋天,秋天的意思就是冬天馬上就來了。
作為人工智能的學(xué)者,我們該怎么看待這件事情,我們能做些什么?不管大家怎么預(yù)測,至少今天還是一個(gè)人工智能的黃金時(shí)代。
為什么這么講呢?接下來先給大家展示一些最近人工智能取得的成果,確實(shí)是之前十幾年我們完全想不到的。
1、人工智能在語音方面的突破
小米電視日前推出主打”高性價(jià)比”的全球首款人工智能語音電視小米電視4A,只需一個(gè)語音按鍵,便可實(shí)現(xiàn)關(guān)鍵詞搜索、熱度排行、開啟應(yīng)用游戲等10類語音交互功能。無獨(dú)有偶,長虹近期推出CHiQ人工智能電視新品Q5N和OLED電視新品Q5A系列,主打的功能還是語音控制。
實(shí)際上,在市面上海爾、TCL等已經(jīng)推出了所謂的可進(jìn)行語音搜索的人工智能電視。小米電視最重磅的功能是支持人工智能語音控制,號稱老人孩子都能使用,可以用很自然的語言對電視進(jìn)行聲控。
智能語音正在向著私人助理機(jī)器人方向快速發(fā)展,在大數(shù)據(jù)、人工智能、機(jī)器學(xué)習(xí)等技術(shù)的支撐下,可為每個(gè)人量身定制自己的個(gè)性化私人助理。
私人助理會根據(jù)用戶的行為和使用習(xí)慣,幫助用戶網(wǎng)上購物、安排出行、調(diào)整設(shè)備、智能提醒、聊天解悶。
私人助理可以提供越來越多的線下生活服務(wù),如訂餐廳、訂外賣、購買電影票、醫(yī)院預(yù)約等操作。
2、人工智能在圖像處理方面的突破過不了多久,所有人都可以通過人工智能對一張圖片或是對視頻進(jìn)行復(fù)雜的處理。舉個(gè)栗子,SmileVector 是一個(gè)推特機(jī)器人,
可以生成任何明星照片微笑的動圖,如果輸入一張人臉圖片,它可以通過深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)生成它們微笑的表情。
雖然這些圖片也許并不完美,但它們完全是自動生成的,這是人工智能在圖像處理領(lǐng)域的又一進(jìn)步。
也許不久之后,圖片、聲音和視頻造假都將變得容易。想象一下,假如新版本的 Photoshop 可以像用 Word 編輯文字一樣輕松編輯圖片,
你還會相信自己的眼睛嗎?
Smile Vector 只是新技術(shù)的冰山一角,我們很難對現(xiàn)代人工智能多媒體處理技術(shù)做出全面的概述,但我們能夠找出其中一些有意思的應(yīng)用。
例如:從一張 2D 圖片中創(chuàng)建 3D 面部模型;使用人類“模型”實(shí)時(shí)改變視頻中人物的面部表情;改變圖片中的光源和陰影;
為無聲視頻自動生成聲音;在總統(tǒng)選舉直播中讓特朗普變成禿頭;用視頻剪輯“復(fù)活”朋友等等。這些事例只是其中的一小部分。
3、人工智能在自然語言方面的突破通過互聯(lián)網(wǎng)搜索引擎,發(fā)掘、建立語音信息數(shù)據(jù)庫,利用云計(jì)算、大數(shù)據(jù)、自然語義分析、機(jī)器學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)行語音信息聚類處理,
力求得到更準(zhǔn)確的答案。在實(shí)際生活場景下,用戶口語化表述更加多樣,容易產(chǎn)生歧義,人機(jī)交互難度非常大。
微軟在構(gòu)建Bing和Azure過程中成熟應(yīng)用了NLP,計(jì)算語義學(xué),情感分析,邏輯或者統(tǒng)計(jì)機(jī)器學(xué)習(xí),信號處理,大規(guī)模計(jì)算,云端存儲和響應(yīng),
本地硬件加速等技術(shù),所以Cortana實(shí)現(xiàn)了更加貼近生活的自然人機(jī)交互。Siri基于WolframAlpha,WolframAlpha是一個(gè)計(jì)算知識引擎,
而不是搜索引擎,用戶在搜索框鍵入需要查詢的問題后,該知識引擎將直接向用戶返回答案,而不是返回一大堆網(wǎng)頁鏈接。
前面說的這些語音、圖像、語言,聽起來還都是一些感知方面的東西。大家也知道,最近這段時(shí)間,
人工智能在一些傳統(tǒng)我們認(rèn)為可能很難由機(jī)器來取得成功的領(lǐng)域也獲得了突破。比如騰訊已經(jīng)在對戰(zhàn)中加入人工智能,利用人工智能技術(shù)來打游戲。
碰到過的人都知道,這種游戲機(jī)器人雖然只能按既定的設(shè)置去完成游戲,但是能跟玩家完成簡單的配合輔助等基本細(xì)節(jié)。
也許在我們眼里它只是達(dá)到了所謂“菜鳥”玩家的水準(zhǔn),一旦成熟,我相信它會發(fā)現(xiàn)一些平時(shí)我們自己都玩不出來的竅門。
大家都知道AlphaGo非?;?,使用了深度增強(qiáng)學(xué)習(xí)的技術(shù),經(jīng)過了非常長的訓(xùn)練時(shí)間,引用了大量數(shù)據(jù)做self-play,
最終是以壓倒性的優(yōu)勢,4:1戰(zhàn)勝了當(dāng)時(shí)的世界冠軍李世石。在去年的IJCAI上面,AlphaGo主要的開發(fā)人員做了一個(gè)keynote,
說自戰(zhàn)勝了李世石之后,AlphaGo并沒有停下腳步,因?yàn)樗且粋€(gè)self-play的process,可以繼續(xù)訓(xùn)練,只要給他足夠的運(yùn)算時(shí)間和樣例,
它就可以不斷地去訓(xùn)練。所以也能理解為什么今年年初Master重新回到大家視野里,可以對圍棋高手60連勝,因?yàn)檫@個(gè)差距太大了。
這些事情都是以前人們覺得人工智能不可以去企及的領(lǐng)域。但正是因?yàn)檫@些計(jì)算機(jī)科學(xué)家、人工智能科學(xué)家不斷地去模仿人的決策過程,
比如他們訓(xùn)練了value network,訓(xùn)練了policy network,就是怎么樣根據(jù)現(xiàn)在的棋局去評估勝率,去決定下一步該走什么子,
而不是走簡單的窮舉,用這些value network來對搜索樹進(jìn)行有效的剪枝,從而在有限的時(shí)間內(nèi)完成一個(gè)非常有意義的探索,
所有這些都是人工智能技術(shù)取得的本質(zhì)的進(jìn)展,讓我們看到了一些不一樣的結(jié)果。