當前位置:首頁 > 智能硬件 > 人工智能AI
[導讀] 當我進行以數(shù)據(jù)科學家進行自我介紹時,經(jīng)常會被問道:“數(shù)據(jù)科學和機器學習有什么區(qū)別?”或者“這是不是意味著你在研究人工智能?”所以我將通過本文進行回

當我進行以數(shù)據(jù)科學家進行自我介紹時,經(jīng)常會被問道:“數(shù)據(jù)科學和機器學習有什么區(qū)別?”或者“這是不是意味著你在研究人工智能?”所以我將通過本文進行回答。

這些領(lǐng)域確實有很多重疊的地方,但它們并不是一個領(lǐng)域:即使很難用語言表達,這些領(lǐng)域的大多數(shù)專家也都能直觀的理解特定的工作是如何被分類為數(shù)據(jù)科學、機器學習或人工智能的。

所以在這篇文章中,我提出了關(guān)于這三個領(lǐng)域差異的簡化定義:

·數(shù)據(jù)科學產(chǎn)生洞察力。

·機器學習做出預測。

·人工智能生成行為。

顯然,這不是一個充分條件:不是所有符合該定義的東西都是該領(lǐng)域的一部分。(算命先生做出預言,但我們不會說他們在做機器學習?。┻@也不是一個確定某人角色或者職位頭銜的好方法(我是數(shù)據(jù)科學家嗎?)。

但是我認為這個定義對區(qū)分這三種工作是非常有效方法,并且可以避免你談?wù)撍臅r候聽起來很傻。

數(shù)據(jù)科學生成洞察力

數(shù)據(jù)科學與其他兩個領(lǐng)域非常不同,因為它的目標同時也是人類的一個目標:獲得洞察力和理解能力。Jeff Leek對數(shù)據(jù)科學能夠達到的洞察類型有一個很好的定義,包括描述性(“平均客戶端更新的幾率為70%”)探索性(不同的銷售人員有不同的更新率)和因果關(guān)系。

同樣,并不是所有產(chǎn)生洞察力的都有資格成為數(shù)據(jù)科學,數(shù)據(jù)科學的經(jīng)典定義是它涉及了統(tǒng)計學,軟件工程和領(lǐng)域?qū)I(yè)知識的組合。但是我們可以利用這個定義來區(qū)分它和ML、AI。它們最主要的區(qū)別在于,在數(shù)據(jù)科學循環(huán)過程中總需要人參與:由人理解洞察結(jié)果,了解大體輪廓,或者從結(jié)論中獲益。所以像“下棋算法使用數(shù)據(jù)科學來選擇下一步”或者“谷歌地圖使用數(shù)據(jù)科學來推薦駕駛方向”這些說法都是毫無意義的。

因此,數(shù)據(jù)科學的定義強調(diào):

·統(tǒng)計推斷

·數(shù)據(jù)可視化

·實驗設(shè)計

·領(lǐng)域知識

·通訊

數(shù)據(jù)科學家可以使用一些非常簡單的工具:他們可以獲得百分比,并根據(jù)SQL查詢結(jié)果繪制線形圖。也可以使用非常復雜的方法:他們能夠與分散的數(shù)據(jù)倉庫合作,分析數(shù)以萬億計的記錄,從而開發(fā)最前沿的統(tǒng)計技術(shù),建立交互式可視化。但是不管他們使用什么,目的都是為了更好地理解他們的數(shù)據(jù)。

機器學習做出預測

我認為機器學習屬于預測領(lǐng)域:“給出具有特定特征的實例X,推測Y”。這些預測可能是關(guān)于未來的(預測這個病人是否會進入敗血癥),也可能是關(guān)于預測對計算機來說不那么明顯的特性(預測這個圖像是否會有鳥)。幾乎所有的Kaggle競賽都可以被認為是機器學習相關(guān)的問題:他們提供一些訓練數(shù)據(jù),然后看看競賽者能否對新的例子做出準確的預測。

數(shù)據(jù)科學和機器學習有很多的重疊之處。例如,都可以用邏輯回歸來獲取對有關(guān)關(guān)系的見解(越富裕的人越有可能購買我們的產(chǎn)品,所以我們應(yīng)該改變我們的營銷策略)并且可以做出預測(該用戶有53%的幾率購買我們的產(chǎn)品,所以我們應(yīng)該多向他們推銷)。

像隨機森林(random forests)這樣的模型,其可解釋性稍差,所以更適合“機器學習”的描述,而深度學習等方法則是難以解釋的。如果你的目標是獲取真知灼見,而不是做出預測,那么這可能會妨礙你。因此,我們可以想象一個數(shù)據(jù)科學和機器學習的“光譜”,有更多的可解釋模型傾向于數(shù)據(jù)科學方面,而更多的是機器學習方面的“黑匣子”模型。

大多數(shù)的從業(yè)者能夠非常自在的在兩個領(lǐng)域之間來回切換。我在工作中就同時使用了機器學習和數(shù)據(jù)學習:我可以在Stack Overflow流量數(shù)據(jù)上安裝一個模型,以確定哪些用戶可能正在尋找工作(機器學習),然后構(gòu)建總結(jié)和可視化來檢驗?zāi)P偷墓ぷ髟?數(shù)據(jù)科學)。這是發(fā)現(xiàn)模型缺陷的一個重要方法,也是解決算法偏差的重要方法。這是數(shù)據(jù)科學家常常負責開發(fā)產(chǎn)品的機器學習組件的原因之一。

人工智能生成行為

人工智能是迄今為止這三種標識中最古老也是最廣為人知的,因此定義它最具有挑戰(zhàn)性。這個術(shù)語已經(jīng)被炒作泛濫,這要歸功于研究人員,記者以及尋求金錢或者關(guān)注的創(chuàng)業(yè)公司。

·當你籌備資金時,這是人工智能

·當你招聘時,就是ML

·當你正在執(zhí)行時,這就是線性回歸

·當你調(diào)試時,就是printf()

讓我沮喪的是這引起了強烈的反彈,因為這意味著一些應(yīng)該被稱為人工智能的工作卻沒有得到相應(yīng)的描述。一些研究人員甚至還抱怨人工智能的影響:“人工智能是我們目前還做不到的”。那么我們可以用AI來描述什么工作呢?

“人工智能”定義中的一個共同點是自主代理人執(zhí)行或推薦操作,一些我認為應(yīng)該描述為AI的系統(tǒng)包括:

·游戲規(guī)則(深藍,AlphaGo)

·機器人與控制理論(運動規(guī)劃,行走兩足機器人)

·優(yōu)化(谷歌地圖選擇路線)

·自然語言處理(bots2)

·強化學習

同樣,我們可以看到它與其他領(lǐng)域有很多重疊之處。而深度學習橫跨了ML和AI兩個領(lǐng)域,這非常有趣。典型的用例是對數(shù)據(jù)進行訓練,然后生成預測,但在AlphaGo這樣的博弈算法中卻取得了巨大的成功。(這與早期的游戲系統(tǒng)不同,比如深藍,它更專注于探索和優(yōu)化未來的解決方案空間)。

但也有區(qū)別。如果我分析一些銷售數(shù)據(jù)并發(fā)現(xiàn)某個特定行業(yè)的客戶比其他行業(yè)的客戶更新的更多,那么輸出的是一些數(shù)字和圖形,而不是指定操作。

請不要將那些訓練算法的人描述為“利用了人工智能的力量”。

- Dave Gershgorn (@davegershgorn) 2017年9月18日。

人工智能和機器學習之間的區(qū)別更加微妙,歷史上的ML經(jīng)常被認為是人工智能的一個分支(特別是計算機視覺,其實它是一個典型的人工智能問題)。但我認為,ML領(lǐng)域很大程度上是由人工智能“中斷”的,部分原因是上面描述的反彈:大多數(shù)從事預測問題的人不喜歡把自己描述為人工智能研究員。(它能通過統(tǒng)計數(shù)據(jù)幫助許多ML實現(xiàn)重大突破,而這些數(shù)據(jù)在人工智能的其他領(lǐng)域卻沒有那么大的影響力)。這意味著如果你可以用“Y預測X”來描述一個問題,那么我建議你避免使用AI這個詞。

案例研究:如何一起使用這三者?   

假設(shè)我們正在制造一輛自動駕駛汽車,并且正在研究如何在停車標記處自動停車的具體問題。那么我們將需要使用這三個領(lǐng)域的技能。

機器學習:汽車必須能夠通過攝像頭識別停車標志。我們構(gòu)建了數(shù)據(jù)集,其中包含數(shù)以百萬計的街邊對象的照片,并訓練一種算法來預測哪些有停止標志。

人工智能:一旦我們的汽車能夠識別停車標志了,就需要決定什么時候執(zhí)行剎車動作。太早太晚都非常危險,而且我們需要它能應(yīng)對不同的路況(例如,它要能意識到在濕滑路面上剎車不會快速減速),這是一個控制理論的問題。

數(shù)據(jù)科學:在街頭測試中,我們發(fā)現(xiàn)車輛性能不夠好,因為總會略過一些停車標志。通過對街頭測試數(shù)據(jù)的分析,我們得出了結(jié)論:在日出之前和日落之后,更容易錯過停車標志。這讓我們意識到,我們大部分的訓練數(shù)據(jù)只包含白天的影像,所以我們構(gòu)造了一個包括了夜間圖像的更好的數(shù)據(jù)集,然后重新回到機器學習步驟進行研究測試。

我們常說的“機器人”指的是解釋自然語言,然后以實物回應(yīng)的系統(tǒng)。這可以從文本挖掘中區(qū)分出來,其目標是提取見解(數(shù)據(jù)科學)或文本分類,其目標是對文檔進行分類(機器學習)。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉