互聯(lián)網(wǎng)大會之：AI的“不靠譜”之處，你知道多少？

時間：2020-08-20 12:09:02

關(guān)鍵字： AI 互聯(lián)網(wǎng)大會

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] 　　11月17日，第三屆世界互聯(lián)網(wǎng)大會進入第二天。搜狗CEO王小川在會上分享了以深度學習為代表的人工智能技術(shù)目前的瓶頸及希望，并在現(xiàn)場首次公布了搜狗自研的機器實時翻譯技術(shù)。　　王小川表

　　11月17日，第三屆世界互聯(lián)網(wǎng)大會進入第二天。搜狗CEO王小川在會上分享了以深度學習為代表的人工智能技術(shù)目前的瓶頸及希望，并在現(xiàn)場首次公布了搜狗自研的機器實時翻譯技術(shù)。

　　王小川表示，AlphaGo之后，大家關(guān)注到了人工智能技術(shù)的進展，但實際上，在文字領(lǐng)域，人工智能的進展還比較緩慢，今天機器翻譯方面有了一些突破，但在問答及語義理解方面還很不夠。

　　對此，王小川指出了兩大挑戰(zhàn)：一是多人情景下的語音識別，目前搜狗的技術(shù)在安靜環(huán)境下已經(jīng)可以達到95%-97%的識別準確率，但一旦出現(xiàn)兩個人同時說話，機器就無法識別，王小川表示，這個問題在學術(shù)至今依然無解。

　　另外一個挑戰(zhàn)是語義理解。王小川說，Google之前采取的解決方法是知識圖譜，但現(xiàn)在遇到了瓶頸，例如機器詢問用戶需不需要停車，用戶回答要或者不要都沒問題，但如果回答“我沒車”，機器就不能理解。“自然語言的處理是可以做的，但是，語音的理解到現(xiàn)在還是個不靠譜的階段。”

　　王小川還提到了無人駕駛的可靠性，他認為，在封閉場景中，無人駕駛汽車是可以使用的，但在真正開放的環(huán)境中，以目前的技術(shù)，仍然不安全。

　　雖然人工智能技術(shù)還有種種困難，但王小川認為，搜索和輸入仍將是該技術(shù)比較有應(yīng)用前景的兩大領(lǐng)域，而這也正是搜狗的兩大核心業(yè)務(wù)。

　　王小川認為搜索的未來應(yīng)該是問答機器人，而對于輸入，他表示這項技術(shù)的極致應(yīng)該是能夠開始尋找信息，幫助用戶思考。隨后，王小川還在現(xiàn)場演示視頻中展示了搜狗最新的實時機器翻譯功能。

　　以下是演講實錄：

　　我非常喜歡張一鳴先生剛才的分享，作為一個創(chuàng)業(yè)時間不長的公司，取得今天這樣一個成績，既有技術(shù)，也有情懷。已經(jīng)聽了12場分享了，最后一場是我給大家?guī)淼奈覀儗θ斯ぶ悄艿睦斫狻?/p>

　　前面12場中間有技術(shù)、有產(chǎn)品，我希望我給大家的分享能夠有些不同的內(nèi)容，有自己獨有的視角。

　　今天一開始大家都提到了AlphaGo這個事情，作為今天人工智能引爆的一個開端，深度學習在中間承擔了最重要的責任。今天大家開始暢想的時候，有可能認為人工智能未來真的會取代人，我希望今天的分享更多地能夠知道人工智能在今天能做什么，不能做什么，未來終極的理想又是什么。AlphaGo之后，我們看到最重要的領(lǐng)域突破是在語音和圖像上，但事實上在文字領(lǐng)域的進展是緩慢的，今天在機器翻譯里面會有一些突破，但是更多的問答或者其他的對語音的理解并不夠。

　　所以，我們回到AlphaGo之外的圖靈測試，上個世紀50年代圖靈就提出了問答機器和對話系統(tǒng)這樣一個概念。開篇來講，我們今天有一個直觀的感受就是語音圖像進步很快，但是自然語言的處理是慢的。

　　拋開技術(shù)，作為一個產(chǎn)品經(jīng)理，我會提到人工智能有三個產(chǎn)品的方向，今天的會上我們都談到了，一個叫識別，語音識別、圖像識別、視覺的識別。另外一個大家提的比較多的是創(chuàng)造，基于一幅圖，我們生成它的文字描述，生成音樂，生成圖像，這些都有。還有一件事情是判斷，就是我們講的做決策。這三件事情里面，我跟一些做投資的人聊過，我告訴他們中間最重要的、有重大商業(yè)意義的在于判斷，今天大家分享的時候有提到了類似的概念。

　　大家提到了人工智能往前進步的幾個層次，我想換一個語言來描述，就是工程師在今天人工智能時代會處于越來越重要的位置。我們開始提到傳統(tǒng)的方法是把規(guī)則交給機器，隨著統(tǒng)計系統(tǒng)的發(fā)展，包括深度學習，我們開始更容易地將答案交給機器。剛才湯道生講的監(jiān)督學習就是這樣一個方式，所以，在數(shù)據(jù)足夠的積累下，我們就能讓機器變得更聰明。

　　這里面最前沿的方式是將目標交給機器。AlphaGo融合了這樣幾套算法。但是我跟他們工程師溝通的時候，這樣一個目標交給機器的強化學習還并不成熟。也就是說，如果沒有之前三千萬局人機對戰(zhàn)的棋譜，這樣一個AlphaGo的機器是沒有能力做到只通過強化學習去贏得人類的。我會感覺在技術(shù)層面這是往下需要突破的一個重點。如果將目標交給機器能夠做自我學習有新的突破，那我們離新的人工智能時代的到來就更近了。

　　今年6月份我去了英國倫敦，也跟DeepMind公司的工程師做了交流。我特別好奇的是在下棋的第四局機器輸?shù)袅耍矣龅剿麄兊牡谝粋€問題就是第四局怎么回事？他們跟我說，不是程序有bug，就是深度學習本身有瓶頸。圍棋比賽是3月份，我是6月份去的倫敦，已經(jīng)過了3個月。3個月的時間。對不起，這個問題依然沒有解決掉。但是很好的是在我離開后的第一個星期，他們的程序能夠正確地面對之前的第四局棋譜，但是問他是否這個bug修好了？工程師跟我說沒有，只是代表第四局那個特定的問題正好機器能夠解決，但是，我們依然不知道什么情況下這樣一個AlphaGo會繼續(xù)出錯，所以我們知道深度學習這樣一個體系還是有它的瓶頸所在。所以我今天更多的想跟大家談以深度學習為代表的人工智能技術(shù)還有哪些不靠譜的地方是在產(chǎn)品上不適用的。

　　第一個問題先問一下語音識別靠譜嗎？剛才百度和騰訊都提到了語音識別這樣一個能力，今天我跟大家的演示也談到了語音識別，這是搜狗自己的技術(shù)。安靜的環(huán)境下我們的識別準確率到了95%或者97%，但是一旦有噪音迅速下降，這種噪音可能還只是汽車引擎噪音，風的噪音，我們把噪音當成原始數(shù)據(jù)進入到監(jiān)督學習系統(tǒng)里面，把這種噪音變成機器能見過的問題之一。但是假設(shè)同時兩個人在說話，會怎么樣？可以告訴大家，在今天的學術(shù)界依然無解，同時兩個人說話，這樣的噪音我們都沒見過，我也沒辦法做提前的訓練。

　　今年6月份我也在問學術(shù)界的人，人跟機器在語音識別上的區(qū)別究竟怎么解決？我們機器上能采用立體聲的方式做定向的識別，我們做個麥克風矩陣，通過立體方式能夠知道其中一個人在說話，把另一個人說的話去掉，那人是這么干的嗎？如果把我的一只耳朵堵上，我是否沒辦法從兩個人中間分別出說話的人，或者把兩個人說話的聲音錄到一個單聲道的錄音帶里，人還能識別嗎？在座各位怎么看？人是可以的，所以人的方法跟機器并不一樣。因此，我就跟一些博士在聊，究竟人怎么識別？是因為兩個人的音色不一樣，還是一個人聲音大，一個人聲音小，還是因為他們說不同的語言？那個博士笑了，他說，但凡同時有兩個人說話的時候，只要能夠找到一個差別，人就能把其中的一個聲音識別出來，所以，人在跟機器處理的過程中還有巨大的不同。我在這里先不展開。我們認為語音識別已經(jīng)在機器智能方面最成熟的領(lǐng)域還是跟人有很大的區(qū)別的。

　　另外一件事是語義靠譜嗎？就是對語言的理解。Google之前是用知識圖譜的方法解決，現(xiàn)在開始遇到了瓶頸。今年6月，我在一個實驗室看到他們最先進的人機對話系統(tǒng)，這個系統(tǒng)能幫你訂餐和訂酒店。在對話過程中，機器的表現(xiàn)是非常驚艷的，讓我們上去試，中間有個環(huán)節(jié)請大家注意，機器開始問你，你是需要停車位，還是不要停車位？如果這個時候，我們回答說要或者不要，都沒問題。我們就說，我沒車。大家知道機器怎樣的？它完全不理解我沒車就代表著我不需要停車位，這是因為今天的機器在自然語言概念的理解里面還是遠遠不夠的。所以，自然語言的處理是可以做的，但是，語音的理解到現(xiàn)在還是個不靠譜的階段。

　　Google今年也發(fā)布了一套對于自然語言能夠做句子分析的一個引擎，把主語、謂語、賓語都能提出來，但是準確度可能就在90%，就提不上去了，它自己也說，為什么呢？是因為這個時候光靠統(tǒng)計、靠語法已經(jīng)不足夠支撐了，往下需要對句子中具體的概念有理解才能消除歧義，就像我們知道不可能把一條馬路放在一個冰箱上面，對人來講是特別簡單的事情，但是對計算機的挑戰(zhàn)就非常大，所以這是深度學習為代表的人工智能還不夠的地方。

　　很敏感的問題是，無人駕駛靠譜嗎？今天百度在現(xiàn)場也提出了發(fā)布無人駕駛的汽車，但是從我的了解來看，如果以今天人類的技術(shù)，對于見過的場景、對于封閉場景的無人駕駛汽車確實是可以使用的，但是對于真正開放的環(huán)境，不只是跑在高速上或者是五環(huán)路上的汽車，對不起，以現(xiàn)在人類的技術(shù)，是不安全的。因為這個場景只要它沒見過，它可能會犯嚴重的錯誤，就像AlphaGo下棋一樣，它會突然發(fā)瘋，所以我們可能叫輔助駕駛是可行的，無人駕駛在有新的技術(shù)突破前，我認為還做不到。

　　所以今天深度學習的弱點大家提得比較多了，本身不透明，所以它的可靠性有限，缺乏推理能力，特別缺乏對符號的理解。如果不能理解符號，自然語言的理解就會成為瓶頸。即便是這樣，我們也提到它能夠取代一些行業(yè)，比如說棋手、醫(yī)生、司機，機器在里面都能做到很好的輔助，但是對于一些大家沒見過的創(chuàng)造性的事情、規(guī)劃、科研，其實是很難的。我們今天在媒體上看到的機器能夠自動寫文章、自動畫圖，我覺得更多的是在科研層面給我們展示出來它的一些例子，但是并不是能達到取代人真正使用的階段。

　　所以在這里面我先把大家對人工智能的預(yù)期降低下來，也有人在問是否會出現(xiàn)第三次的退潮？前兩次我們都認為人工智能到來了，但這一次可能會比之前好。在之前兩次的人工智能退潮前，我們問一個老師，你是研究人工智能的嗎？這是罵他的話，因為人工智能不靠譜。這一次是第一次真正進入到了使用，確實在語言處理、聲音處理、圖像處理和一些高維數(shù)據(jù)空間上，它能比人做得更好。因此，這次的區(qū)別就是大量的資金、資本投入到了人工智能，也有大量的研究人員在畢業(yè)后從事人工智能的工作，這是跟之前的工作不一樣的，所以一方面開始使用，另一方面我們開始期待不斷的產(chǎn)生新的突破。

　　我個人對這次是樂觀的，但是我也會很緊張，也許我們自己做的搜索引擎就是會被顛覆的一部分。

　　在這里面，我要開始暢想未來的路在什么地方？從我自己的描述來看，搜索的未來就是人工智能時代的皇冠。為什么這么說呢？搜索的未來是什么？人工智能的未來又是什么？為什么是皇冠？簡單來講，我會認為搜索的未來就是問答機器人，因為我們已經(jīng)習慣了一件事情，是做搜索的時候我們先輸入關(guān)健詞，然后給你10條結(jié)果或者是10條鏈接，但是這真的是最好的方法嗎？肯定是不夠的。我們也會提到是否我們用個性化的方法能夠使得搜索的結(jié)果更準，但其實個性化能夠提供的信息非常有限。真正能夠使得這個系統(tǒng)變得有用的辦法是用問句。以前不用問句的一個原因是因為機器聽不懂你在說什么。真的到了問句之后，它能夠從給你10條鏈接變成給你一個答案，就會好很多。

　　我們可以想像，如果你問機器四個字，“烏鎮(zhèn)大會”，這個信息不可能給你想要的內(nèi)容，最多是只能把新聞，烏鎮(zhèn)的百科或者官網(wǎng)介紹給你，但是如果你問到烏鎮(zhèn)大會哪一天開？這個時候機器才有機會給你更好的答案。所以我相信隨著技術(shù)往下突破，搜索引擎會自然而然轉(zhuǎn)化成一個問答引擎。

　　在這個道路里面，很多公司都在做，包括蘋果、微軟、亞馬遜、Google，這里面起步最早做對話系統(tǒng)的大家知道是蘋果的Siri，這個系統(tǒng)并不成功，在中國用的人很少，不知道對英語現(xiàn)在的使用會怎樣？為什么不成功？簡單的原因是因為現(xiàn)在的技術(shù)還沒有到來，現(xiàn)在我們對于自然語言的處理能力和自然語言的理解能力還非常有限，我就在想，為什么蘋果這樣一個追求極致的公司會把這個系統(tǒng)發(fā)布出來？一種可能性是蘋果對技術(shù)了解不夠，另一種可能性我認為是喬布斯的一個意愿，咱們知道在發(fā)布iPhone手機的時候，他已經(jīng)躺在病床上看發(fā)布會了，發(fā)布會完成之后，他很快就離開人世了。所以這像一個早產(chǎn)的嬰兒在iPhone 4S里面發(fā)布出來，所以我認為這樣一個系統(tǒng)代表了喬布斯對于人類蠻終極的一種人機交互的暢想。

　　事實上在我們大量的文學作品、電影、科幻里面都會提到問答的機器，不管是《星球大戰(zhàn)》、《超能陸戰(zhàn)隊》、《星際穿越》都會提到。一個最偉大的科幻作家阿西莫夫也在他的小說里面有一個短片，叫做《最后的問題》，他描繪的就是人類造出一臺機器把整個地球、整個宇宙的能源都用上去。這個機器回答不了一個終極的問題，就是這個宇宙是怎么誕生的，但是其他的問題它都能回答。所以文學作品，其實是代表了我們對問答機器的一個思考。

　　除了搜索引擎做問答以外，咱們知道在中國搜狗的輸入法擁有3億的用戶，輸入法的未來是什么？我也會提到跟自動問答有關(guān)系。給大家看一個視頻。（播放視頻）

　　之前我們討論輸入法的時候很多朋友跟我說語音是最重要的，搜狗有完整的語音識別的技術(shù)和語音合成的技術(shù)，但是在我內(nèi)心，這個遠不是輸入法的極致，它真正的極致是能夠開始尋找信息，幫你去思考。剛才大家演示的是一個分享的能力，真正的回答能力可以在后面給大家做一個新的演示。（播放視頻）

　　在我們討論問答技術(shù)和討論人機對話的時候，輸入法也許是一個最好的切入場景。我們之前提到了百度的度秘或者是Google的Assistant，它都是一個獨立的引擎，但是輸入法作為人的一個分身，剛才余承東提到的這個概念，更容易幫助你建立人的思考，輸入法也會從一個拼音工具開始走向一個對話和問答的系統(tǒng)。

　　搜狗我們有兩個核心產(chǎn)品，一個是輸入法，一個是搜索，就提到了表達信息和獲取信息，讓表達和獲取更簡單。隨著AI技術(shù)的發(fā)展，我們也真正能夠去更好地解放人的思考。所以我們會有一個理念，兩件事情，一個是做自然的交互，不只是語音，而是語言。另外，就是做知識的計算，能讓機器逐步建立推理的能力。搜狗輸入法擁有最大的語言數(shù)據(jù)的積累，我們最有機會在這個領(lǐng)域里面取得突破。