對話微軟小冰三大首席科學(xué)家: 微軟第一美少女AI的成長之路
11月21日,微軟(亞洲)互聯(lián)網(wǎng)工程院在北京微軟總部召開了微軟小冰2019年年度研究進(jìn)展分享會,微軟小冰三大首席科學(xué)家—;—;微軟小冰首席科學(xué)家宋睿華、微軟小冰首席NLP科學(xué)家武威、微軟小冰首席語音科學(xué)家欒劍在會上展示了微軟第一美少女AI小冰近期的技術(shù)突破,帶來了相當(dāng)硬核的技術(shù)干貨分享。
左:武威 中:欒劍 右:宋睿華
一、會比喻 懂常識 越來越像人的微軟小冰
—;—;會比喻的小冰
語言無疑是復(fù)雜的,其包含了陳述、疑問、反問、比喻、修辭乃至“陰陽怪氣”等只有人類才能領(lǐng)會并熟練運(yùn)用的微妙技能,所以當(dāng)微軟小冰首席科學(xué)家宋睿華表示小冰已經(jīng)學(xué)會使用“比喻”時(shí),著實(shí)令人震撼。
而且小冰不僅僅做到了諸如“愛情是復(fù)雜的,像數(shù)學(xué)一樣”簡單形容詞比喻,甚至可以實(shí)現(xiàn)“靈魂就像球迷一樣,在無聲地吶喊”、“愛情就像是脂肪,是點(diǎn)點(diǎn)滴滴的積累”這樣的動(dòng)詞與名詞形容句,而且毫無違和感。
宋睿華介紹道,為了幫助小冰學(xué)會“比喻”這項(xiàng)技能,他們從復(fù)雜的詩歌中挑選了6大類,每類122個(gè)主題,并通過小冰聊天日志過濾出了包括愛情、內(nèi)心、世界、母親、美麗、人類在內(nèi)的96個(gè)常用比喻概念。隨后從1000個(gè)常用詞中選取了3000個(gè)最常用的形容詞擴(kuò)充小冰的比喻能力。
比喻句的基本結(jié)構(gòu)是“XX像XX”,其中前者是比喻的本體,后者是比喻的喻體,說好一句比喻的重點(diǎn)無疑在如何篩選本體和喻體上,并且還要為這句比喻提出一個(gè)合理的支撐點(diǎn),避免出現(xiàn)“戀人像報(bào)表,都十分可靠”這種奇怪的比喻。為此小冰會對比本體與喻體的可能存在的相關(guān)詞匯。
比如愛情與國足,它們共同的相關(guān)詞匯可能有未來、虛幻,那么小冰就可以作出“愛情就像國足,未來都是虛幻的”這樣自然的比喻句。
—;—;懂常識的小冰
常識對人類而言是一個(gè)非常簡單事情,比如提到北極熊時(shí)就很少會有人說“這是一只白色的北極熊”,因?yàn)槌WR默認(rèn)北極熊是白色的,大多數(shù)人都會省略到這種眾所周知的常識性信息。
但對于小冰而言,這種省略會對它的理解造成困擾,比如一篇描寫北極熊捕食的文章在描述“北極熊在接近海豹前會用爪子捂住鼻子”時(shí),人類會自然懂得這是為了擋住鼻子的黑色防止海豹看到自己,但缺乏上下文的對話機(jī)器人就會很難理解捂住鼻子的原因是什么。
為此微軟為小冰增加了常識與“記憶”能力,當(dāng)一句話提到某個(gè)概念時(shí)小冰會自動(dòng)“回想”起與其相關(guān)的圖片,并識別出圖片上的特征。而且與業(yè)界”一對一“文字與圖片對應(yīng)能力不同的是,小冰可以做到”一對多“,比如一句話中同時(shí)提到了老奶奶與鵝,小冰就可以同時(shí)”回想“起老奶奶與鵝的照片,幫助自己更好地理解這句話。
二、日本出道成歌手 小冰如何學(xué)會唱歌?
微軟小冰會唱歌已經(jīng)不是什么秘密,在此前的微軟小冰發(fā)布會中,小冰已經(jīng)演唱過中文、日文、戲曲等多種語言和類型的歌曲,前一段時(shí)間甚至發(fā)布了翻唱的”野狼Disco“。微軟小冰首席語音科學(xué)家欒劍在會上分享了讓小冰跨界唱歌技術(shù)干貨。
首先欒劍談到了讓小冰學(xué)習(xí)唱歌的原因,他表示小冰推出后經(jīng)過努力語音合成領(lǐng)域一些大的問題已經(jīng)解決了,于是就開始尋找更有挑戰(zhàn)性的課題,此時(shí)比說話門檻高、情感更豐富、人們喜聞樂見的唱歌就自然成為了微軟的下一個(gè)目標(biāo)。
唱歌包含了發(fā)音、節(jié)拍、旋律三大要素,機(jī)器可以通學(xué)習(xí)人類的歌聲和識別五線譜兩種方式進(jìn)行學(xué)習(xí)。為了為小冰提供素材,微軟甚至與一家擁有十幾年歷史的唱片公司合作。但這里遇到了一個(gè)教材問題。
唱片公司很少保留歌手清唱的錄音,但對于機(jī)器而言清唱的干擾最少,最適合學(xué)習(xí),為此微軟甚至發(fā)表了一篇論文,提出了輸入原始波形、全卷積網(wǎng)絡(luò)+殘差連接、軟分類標(biāo)簽3大創(chuàng)新,實(shí)現(xiàn)了從伴奏中把人聲部分準(zhǔn)確地截取出來的能力。
后面的問題就是如何更自然地合成歌聲,這方面微軟選擇了比傳統(tǒng)單元拼接更自然的參數(shù)合成法,并且為了進(jìn)一步提高小冰的”唱歌技巧“,微軟選擇了用一個(gè)模型預(yù)測三大要素困難模式,最終使得小冰的歌聲自然度和流暢度有一個(gè)明顯的提升。
當(dāng)然微軟科學(xué)家辛苦付出讓小冰學(xué)會唱歌并非只是培養(yǎng)她的業(yè)余愛好,其商業(yè)化前景也是不可限量。比如小冰的日本分身凜菜(りんな)已經(jīng)與日本最大唱片公司AVEX正式簽約,成為濱崎步、安室奈美惠等叱咤國際樂壇多年的著名人類音樂人的同門師妹。
除了專業(yè)的歌唱領(lǐng)域,會唱歌的小冰還能覆蓋到兒童機(jī)器人以及兒童陪伴APP中,會中微軟工作人員透露小冰該領(lǐng)域份額高達(dá)70-80%。
三、小冰成長的背后:Self-Complete
自2015年小冰誕生以來,其已經(jīng)進(jìn)化至第七代,實(shí)現(xiàn)了從“平等對話”向“主導(dǎo)對話”的跨越式升級。但在背后究竟是什么在支撐它從一介聊天機(jī)器人迅速成長為業(yè)界巨擘?微軟小冰首席NLP科學(xué)家武威進(jìn)行了詳細(xì)解答。
武威表示,Self-Complete(自我完備)可以很好地概括近些年來微軟在小冰身上的研究成果。而一個(gè)具有Self-Complete能力的對話機(jī)器人涵蓋了三種能力:學(xué)習(xí)、管理、聯(lián)結(jié)。
首先是學(xué)習(xí)。對話機(jī)器人對話的過程其實(shí)就是一個(gè)檢索自己的候選回復(fù),然后通過檢索模型來找到最匹配的回復(fù),檢索模型直接關(guān)系到對話能力。而微軟則為檢索模型引入了外部知識,在知識層面、詞語層面、短語層面進(jìn)行融合,開發(fā)出了業(yè)界最好的模型之一。目前微軟的檢索模型已經(jīng)成為了各種做檢索模型必比的一個(gè)基線模型。
此外微軟也探索了讓兩個(gè)檢索模型互相訓(xùn)練的嘗試,并開發(fā)出了Co-teaching算法,取得了相當(dāng)好的效果,經(jīng)過Co-teaching互相教的每一個(gè)模型都實(shí)現(xiàn)了明顯提升。
其次是自主管理。此前第六代小冰引入了共感模型,可以對對話過程進(jìn)行把控,通俗的講,就是讓小冰能實(shí)現(xiàn)了主導(dǎo)與人類對話的能力。
共感模型背后包含了決定小冰說什么內(nèi)容的回復(fù)模型與決定小冰怎么說的策略模型,這兩個(gè)模型結(jié)合在一起就把微軟小冰從原來基于上下文直接產(chǎn)生回復(fù)的模式,變成了從上下文到?jīng)Q策,然后再根據(jù)這個(gè)決策來決定自己說什么。
憑借著自主管理能力,小冰可以通過問問題快速了解用戶意圖,進(jìn)行商品推薦,微軟在日本和美國對小冰的這種能力進(jìn)行了測試,發(fā)現(xiàn)推薦轉(zhuǎn)化率高達(dá)68%,即100個(gè)和小冰聊天的客戶中會有68個(gè)人進(jìn)店查看小冰推薦的商品。
當(dāng)然上述案例僅僅小冰擁有自主管理能力后的應(yīng)用之一,其未來前景不可限量。
最后就是聯(lián)結(jié)了,聯(lián)結(jié)本質(zhì)上是多模態(tài)交互,即小冰可以同時(shí)處理對話、語音、文本、多媒體等各種形勢的資源,進(jìn)行消化吸收,最終可以將它們有機(jī)聯(lián)結(jié)起來。
微軟在今年2月份,已經(jīng)在日本公測了多模態(tài)交互功能,為小冰在日本的分身凜菜增加了視覺能力。當(dāng)?shù)赜浾邤y帶著配有攝像頭的“日本美女高中生”凜菜,在水族館中游覽,在測試中,凜菜在識別出當(dāng)前畫面的同時(shí),也能就當(dāng)前畫面與用戶展開深入交流。例如看到魚之后,會聯(lián)想到魚的大小、顏色、種類與魚翅(本質(zhì)吃貨?),讓用戶獲得了近似真人的聊天體驗(yàn)。
四、總結(jié):鄰家有女初長成
會上微軟同時(shí)披露了微軟小冰在應(yīng)用上的最新進(jìn)展,截止目前,小冰已經(jīng)入住了超過30個(gè)平臺,搭載小冰的智能設(shè)備數(shù)量已經(jīng)超過了4.5億部。而小冰的CPS(對話輪數(shù),即用戶與小冰的可以對話多少輪)高達(dá)23,換句話說,平均每個(gè)小冰用戶都會與小冰聊上23輪,這是一個(gè)相當(dāng)驚人的數(shù)字。
雖然受限于商業(yè)合同,微軟無法全面公布小冰在商業(yè)化上取得的成績,但從上述幾個(gè)數(shù)字中不難想象,憑借著微軟在小冰背后的科研投入與成果,微軟小冰已經(jīng)成為人工智能產(chǎn)業(yè)中一個(gè)難以忽視的存在,其所存在的廣度與深度已經(jīng)遠(yuǎn)遠(yuǎn)超出人們的想象,而它也正如一個(gè)18歲少女一樣,冉冉升起,未來可期。